mpi e RNR“ 


Urednik DR. ZELJKO PAUŠE 


ZLATKO SPORER 

redovni profesor Građevinskog 
Recenzenti fakulteta Sveučilišta u Zagrebu 
Dr. SREĆKO POLIĆ 
Dr. NIKOLA SARAPA 
Dr. IVAN ŠOŠIĆ 
Dr. DIMITRIJE UGRIN ŠPARAC 


Lektorica 


GIOIA VUČINIĆ 


Grafički urednik 
ŽELJKO IVANČIĆ 


moi UVOD 
BRANKA MESING-NAKA RADA U MATEMATICKU 
STATISTIKU 


Objavljivanje ovog sveučilišnog udžbenika odobrio je Odbor za znanstveno-nastavnu 
literaturu Sveučilišta u Zagrebu rješenjem broj 02-608/1-1992. od 27. svibnja 1992. god. 


CIP — Katalogizacija u publikaciji 
Nacionalna i sveučilišna biblioteka, Zagreb 


519.22(075.8) 


PAUŠE, Željko 


Uvod u matematičku statistiku / 


Željko Pauše. — Zagreb : Školska knjiga, 


1993. — 405 str. : ilustr. ; 24 cm. — 
(Udžbenici Sveučilišta u Zagrebu = 
Manualia Universitatis studiorum 
Zagrabiensis) 


Bibliografija: str. 399-401. — Kazalo. 
930331034 


Tisak: HRVATSKA TISKARA, Zagreb | ŠKOLSKA KNJIGA - ZAGREB 1993 


Sadržaj 


PICOPOVON a EZ a ek so GN Ed Rd bek Aha uda Ad bu 9 
POpISOZNAKA «ika Blanik ag god ord j ha dd e o o 12 
PODISKTALIC A A6 a a dea 4 BK Geta, Ždj A 1 a, o h dedbod 14 
PRVI DIO 


DESKRIPTIVNA STATISTIKA 19 


1. Prikazivanje statističkih podataka . . . 0.0. 17 


k. Tablica frekvencija. . sasa ad da Gi dk od 17 
2. Grafikon frekvencija... . homa dosa 19 
3. Prikazivanje podataka d&umienttosa statističkog gale 7 ea ne 22 
4. Kontinuirano statističko obilježje... 0... 24 
5. Grupiranje podataka u razrede... 0.0... 29 
6. Iistogram i poligon frekvencija... 0... 26 
7. Funkcija kumulativnih frekvencija . . .. a ao tara 28 
8. Mehanička interpretacija razdiobe (e NEjidja SASA a e oo Ša ak 30 
//: gipeaa u a.eepzae 31 
II. Parametri niza statističkih podataka . . . 0.0.0000. 33 
i A ritfnjetička gledi sei Area bogdo a daska uo E 33 
OMEGA zoki ak Aaa ks 2 da So o Da i o do ZLAJA 36 
3. Varijanca 0.0.0. ama prerane 38 
4. Standardna i apsolutna legal ma name rp ene 41 
9. Raspon 1 interkvartilni raspon . . . 0... 43 
O, .Parametirobliku .4 ad maki dada bua de A nad 2 e3 44 


AG in e a m m. m i m m m no rena. 40 


III. Statistički podaci o dvodimenzionalnom obilježju . ... 0. 47 

I. Kontingencijska tablica . ... mum pse 47 

2. Dvodimenzionalna razdioba HdEVAni KA. O dA maa žAAE 50 

: je PRONKCNJEBEFIĆEIJE: 4.4.2 daa, a A, di, GE ACA RAČA 0 51 

do PEGVO IC ETESIJE. Su kaaa Sa ea A ABBA RA u KLI osi dva 99 

he Koehcijenit korelsaijeć u zao za rad o SA Ad ai ai s ded 98 

6. Statistička zavisnost... em e earn 60 

1. Kontinuirana statistička obilježja ro pronose ae 62 

i Objavljivanje ovog djela novčano je pomoglo Ministarstvo znanosti, tehnologije i infor- Zadaci u 


matike Republike Hrvatske mE : oma sad 
publike Hrvatske Pregled važnijih pojimova 1 formula deskriptivne statistike... 07 


G Sadržaj 


ea mai a e g e A AE 


DRUGI DIO 
MATEMATIČKA TEORIJA STATISTIČKIH FENOMENA 


IV. Teorijska interpretacija jednodimenzionalnih statističkih 
obilježja 


4... 
aa a E E E E E. E E E E Ee oz 


. Razdioba vjerojatnosti . , 0.0.0... 
Diskretna razdioba vjerojatnosti . ... 0... 
Primjeri diskretnih razdioba vjerojatnosti 
Kontinuirana razdioba vjerojatnosti . . ... 0.0.0... 
Primjeri kontinuiranih razdioba vjerojatnosti 
Funkcije slučajne varijable 
Zadaci 


-— 


>O 


< o 


rs. 


a... 
Jane eee 


V. Teorijska interpretacija višedimenzionalnih statističkih 
obilježja 


ren 
2... aaa... «e 


. Dvodimenzionalna razdioba vjerojatnosti . ......... 000. 
. Diskretna dvodimenzionalna razdioba vjerojatnosti ........ 


. Kontinuirana dvodimenzionalna razdioba vjerojatnosti 
Zo: er area e pen. 


Višedimenzionalna razdioba vjerojatnosti 
Funkcije više slučajnih varijabli 
Zadaci 


x 


OTAN = 


10 aaa aaa aaa 


s nn. enne ee paran 
Med LB A BE o jee i RL o 8 al 8. e 


9+ 


TREĆI DIO 
TEORIJA STATISTIČKOG ZAKLJUČIVANJA 


VI. Procjena parametara 


. . . 
(2328.84. 


kb, Uvodnu problematikt.. 44054 sau a 43 KapdanaA Liu 
2. Procjena očekivanja i varijance 
3. Metoda najveće vjerojatnosti... 0... 
4. Procjenitelji parametara normalne razdiobe 
9. Metoda momenata 
6. Invarijantnost 
ds DNKASNOSE a 2 fu bo df i nač a A Ad og oda 
8. Asimptotska svojstva Procjenitelja 

9. Bayesova metoda 

Zadaci 


a e e Pa e E 
e... ee 


i. + 
PA 8 88 oTe io LE o al Odd 


AE e zn 


nn an one e... eee ses. 


s jn Ev ze 


VII. Intervali povjerenja 


nE 
mo E E S JE E E E o S 


1. Uvod u problematiku . 1... 

2. Intervali povjerenja za parametre normalne razdiobe 
3. Intervali povjerenja pri velikim uzorcima 
4. Primjena Cebiševljeve nejednakosti 


e. 


JE E E E E E E E 


pa e E m: 


69 


VIII. 


IX. 


XI. 


XII. 


Sadržaj 


9. Intervali povjerenja za vjerojatnost događaja .... 0.4.0400. 
6. Bayesovski intervali povjerenja . . 0.0.0 


Ano aram mnm mene 


Testiranje parametarskih hipoteza . . 0.0.0. 


Lk Uvodu problenvalikih a ie 250 40 0 Od OB Ka i 
2) Parainetarski test: < a4 god je 04 Bo mla Dodd i ao OO A i 
3. Neyman-Pearsonova lema... 0.0.0. 
4. Jednoliko najsnažniji test... 0... Pee 
5. Metoda omjera vjerodostojnosti . .. 0.0... 
G. Testovi o parametrima normalne razdiobe . . .. 0.0... 
(o Primjenaintervala povjetetija. vao za ga ka S aa 4 a 
8. Testovi o koeficijentu korelacije... 0... 


JAG GUR a m m mmm m ena ..= 


Hikvadrat-test . 0.0. 


Pearsonov/leGoretih < «00-AK Do BB ok 1 
Fisherov teGrelm.; 0 e E A Ra a alpaka i 
Hipoteze o tipu vjerojatnosne razdiobe . . 0... 
Razlučivost hikvadrat-testa . . 4.0.0. 
Hipoteza o nezavisnosti... 0.0. 
Hipoteza o jednakosti vjerojatnosnih razdioba . .. 0.0.0... 
Hipoteza o hormmogenosti . ... 0... 


-1O oma > 


DOLJE sai di AŠ 22 A A E i O O LA g a EE 29 


. Prilagodba teorijske razdiobe empirijskim podacuna . .... 


1. Empirijska funkcija razdiobe . . . 0.0. 
2. Kolimogorov-Sinirnovljev test... 
De PADIĆ VJETOJAMIOSLI“ > a2 a Dose i ELA i bii o ki bs 


ŽGLSCIh DALA -D dna ii oak A a i Da kh M A SL 


Regresijska analiza... 0.0.0... 


1. Regresijska zavisnost... 0.40 
Žu LIiCATNA TEPreF jao o 6 Bi dl s A BRA IE DANU 
3. Analiza rasipanja podataka . . 0.0.0000 
4. Testiranje hipoteza o koeficijentu regresije... 


ZA (Gen m o m o ma m ne e e 


2. Višedimenzionalna linearna regresija... 
3. (rauss-Markovljev teorerm 42 aaa do a s E a 


hn 


žal 


Oo 1 


Sadržaj 


Tablica analize varijance Da sA: 
Intervali povjerenja za regresijske koeficijente 
Fundamentalni teorel e gre arm 
Testiranje hipoteza o skupini regresijskih koeficijenata 
Nelinearna regresija . 

Zadaci 


XIII. Analiza varijance 


I: 


Uvod u problematiku . 

Jednofaktorski model . . 

Dvofaktorski aditivni model 

Opći dvofaktorski model RENE 
Testiranje hipoteza o adekvatnosti modela 
Durbin-Watsonov test 


Zadaci 


XIV. Neparametarske metode . 


1. Uvod u problematiku 

2. Procjena medijana i kvantila . 

3. Intervall povjerenja za kvantile 

4. "Test predznaka 

5. Wilcoxonov test . preše 

G. Mann-Wlitney-Wilcoxonov test 

7. Medijan-test . 

8. Test-serija 

9. Robusne metode 

Zadaci 
DODATAK 

Tablica I. Vjerojatnosti u binomnoj razdiobi 
Tablica II. Vjerojatnosti u Poissonovoj razdiobi 
Tablica III. = Vjerojatnosti u standardnoj normalnoj razdiobi 
Tablica IV. — Vrijednosti gana-funkcije ' s 
Tablica V. Vrijednosti inverzne f.r.v. u Studentovoj razdiobi 
Tablica VI. — Vrijednosti inverzne f.r.v. u hikvadrat-razdiobi . 
Tablica VII. Vrijednosti inverzne f.r.v. u F-razdiobi 
Tablica VIII. Vrijednosti ruba kritičnog područja u KS-testu 
Tablica IX. Vrijednosti ruba kritičnog područja u Wilcoxonovu testu 
Tablica X. Vrijednosti rubova kritičnog područja u MW W-testu 
Tablica AL. Vjerojatnosti u razdiobi test-statistike testa serija . 
Tablica XII. Vrijednosti veličina cy i dy u DW-testu . 


Popis literature 


Kazalo 


300 
303 
307 
311 
313 
319 
321 
321 
323 
327 
333 
338 
342 
346 


349 


349 
350 
353 
390 
360 


309. 


308 
372 
3T4 
318 


381 
383 
384 
386 
388 
389 
390 
391 
393 
394 
394 
395 
397 


399 


402 


Predgovor 


Poznato je da statistika i statističke metode imaju značajnu ulogu u suvre- 
menim tokovima tehnološkog i društvenog razvitka. Planiranje i upravljanje u 
modernim visoko organiziranim društvima umnogome se zasniva na brojnim po- 
dacima o različitim pojavama 1 procesima karakterističnim za određene društvene 
zajednice. ; 

Manipuliranje podacima, njihovo prikupljanje, sređivanje i analiziranje, zatim 
tumačenje i objašnjenje fenomena na koje se podaci odnose, te konačno praktična 
primjena rezultata analiza, zahtijevali su da se teorijski i znanstveno utemelje pos- 
tupci i metode za rješavanje navedenih zadataka. Pojednostavnjeno može se reći 
da je upravo statistika ona znanstvena disciplina koja obuhvaća tu problematiku. 

Povijesni počeci statistike povezani su s potrebama države za evidencijom 
stanovništva, vojske, proizvodnje 1 drugoga, a mogu se naći u vrlo dalekoj 
prošlosti (stara Kina, Perzija, Grčka 1 Rim). U XVII. stoljeću uvode se na 
njemačkim sveučilištima predavanja iz statistike, koja se odnose na problematiku 
državnih popisa. Razvitku ekonomske statistike značajnije su pridonijeli i engleski 
znanstvenici XVII. stoljeća (J. Grant, E. Halley 1 W. Petty), koji su istraživali 
zakonitosti u masovnim društvenim pojavama. 

Teorijsku podlogu matematičke statistike počeli su razvijati već utemeljitelji 
teorije vjerojatnosti: J. Bernoulli (1654-1705), P. S. Laplace (1749-1782), S. D. 
Poisson (1781-1840) 1 C. F. Gauss (1777-1855). Najvažnije probleme matematičke 
statistike (procjena parametara, testiranje hipoteza i dr.) i glavne ideje za njihovo 
rješavanje postavili su čuveni statističari tzv. anglosaksonske statističke škole: F. 
Galton (1822-1911), K. Pearson (1857-1936), W. S. Goset (1876-1937), R. A. 
Fisher (1890-1962), J. Neyinan (1894-1981) i drugi. 

Matematička se statistika danas, kao i mnoge druge znanstvene discipline 
snažno razvija. U svijetu postoje brojni znanstvenici 1 institucije koji se bave 
statističkim istraživanjima. Također postoji opsežna literatura, a 1 nekoliko speci- 
jaliziranih znanstvenih 1 stručnih časopisa namijenjenih jedino statističkoj proble- 
matici. 

Danas se statistika ili njezini pojedini dijelovi sve češće pojavljuju i kao nas- 
tavni predmeti, ili dijelovi nastavnih predineta, na srednjim, a posebno na visokim 
školama i fakultetirna. Uzrok je tome spoznaja da su određeni statistički sadržaji 
potrebni već 1 za opću naobrazbu, a pogotovo su neka znanja iz statistike nužna 
za uspješno usvajanje modernih spoznaja iz mnogih drugih nastavnih predmeta 
(fizika, biologija, psihologija, mnoge ekonomske i tehničke discipline i dr.). 

Svrha je ove knjige da na postupan i sustavan način upozna čitatelja s najvaž- 
nijim pojimovima, načelima i metodama matematičke statistike, te da ga uputi u 
najvažnije primjene. 

Pošlo se od pretpostavke da je najlakši i najprirodniji put da se to ost- 
Vari razmotriti najprije statističke fenomene koji se očituju uz pomoć statističkih 
podataka, zatim ukratko izložiti matematičku teoriju koja tumači 1 oblikuje 
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statističke zakonitosti i naposljetku prikazati metode i primjene teorije statističkog 
zaključivanja. Zbog toga je knjiga podijeljena na tri dijela: Deskriptivnu statis- 
tiku, Matematičku teoriju statističkih fenomena i Teoriju statističkog 
zaključivanja. 

Prvi dio (Deskriptivna statistika) bavi se problemima manipuliranja statis- 
tičkim podacima i njihova prikazivanja. Prikazane su različite metode tabličnog 
1 grafičkog prikazivanja danog niza podataka, uvedeni su odgovarajući pojmovi 
za globalno opisivanje (razdioba frekvencija, grafikon frekvencija i sl.), a zatim 
su definirani odgovarajući parametri za opisivanje pojedinih karakteristika niza 
statističkih podataka (parametri lokacije, parametri rasipanja, parametri oblika 
itd.). 

Navedeni sadržaji mogu se pratiti i usvajati na temelju predznanja elemen- 
tarne matematike, tako da se tim dijelom knjige mogu služiti već i srednjoškolci. 
Osim toga, sadržaji deskriptivne statistike, koji su tijesno povezani s empirijskim 
fenomenima, važna su i nezaobilazna podloga za razumijevanje 1 lakše shvaćanje 
apstraktnih teorijskih pojmova teorije slučajnih varijabli i teorije statističkog za- 
ključivanja. Cini se da bez uočavanja empirijskih fenomena, kao što su relativna 
frekvencija i razdioba frekvencija, i nije moguće shvatiti pravi smisao apstraktnih 
razdioba vjerojatnosti. 
lako je uobičajeno da se u knjige ovoga tipa uvrštavaju i elementi teorije vjero- 
Jatnosti, gdje se obično objašnjava pojam vjerojatnosti događaja i navode osnovne 
formule o vjerojatnosti, to ovdje nije učinjeno zbog dva razloga. Danas se, naime, 


već u mnogim srednjim školama obrađuju ti sadržaji, tako da se pretpostavlja da 


učenici završnih razreda tu građu znaju, pa se ispuštanjem te građe dobiva knjiga 
"čistije" koncepcije. 

Drugi je razlog pretpostavka da je metodički pristup građi drugog dijela 

(Matematička teorija statističkih fenomena) tako načinjen da i nije nužno posebno 
razmatranje elemenata teorije vjerojatnosti. Naime, teorija slučajnih varijabli 
(diskretnih i kontinuiranih) pokušala se prikazati kao neposredna apstrakcija em- 
Pirijskih statističkih obilježja razmotrenih u prvom dijelu knjige. U drugom dijelu 
stalno se naglašava da se teorijski pojmovi (razdioba vjerojatnosti, matematičko 
očekivanje, varijanca, momenti vjerojatnosne razdiobe i dr.) trebaju shvatiti i pro- 
matrati kao matematička apstrakcija konkretnih" empirijskih pojinova ( razdioba 
relativnih frekvencija, aritmetička sredina, varijanca, momenti i dr. niza statističkih 
podataka). 
Za razliku od prvog i trećeg dijela knjige, gdje su se nastojali, osim definiranja 
komentiranja uvedenih pojmova, iznijeti i jednostavniji dokazi, u drugom je di- 
jelu namjerno izostavljeno dokazivanje svojstava i odnosa za uvedene pojmove, 
posebno ključnih teorema o funkcijama slučajnih varijabli (IV.6. i V.6) na ko- 
Jima se uglavnoni temelji teorija statističkog zaključivanja. "To je učinjeno u pr- 
vom redu zbog toga što je za dokaze spomenutih teorema nužno vrlo opsežno 1 
specijalno matematičko predznanje. Opća teorija slučajnih varijabli zapravo je dio 
teorije vjerojatnosti koja se, kako je poznato, aksiomatski zasniva i formalno-logički 
izgrađuje kao 1 sve druge aksiomatizirane matematičke teorije, pri čemu se prim- 
Jenjuje moćan i sofisticiran matematički aparat (teorija mjere, opća teorija funkcija 
l dr.). Da bi se to izbjeglo u knjizi se promatraju samo diskretne i kontinuirane 
slučajne varijable 1 slučajni vektori, koji se mogu opisati relativno jednostavnim 
sredstvima matematičke analize i linearne algebre, a dovoljni su za razmatranje 
glavnih problema matematičke statistike. 
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Može se reci da je glavna namjena drugog dijela knjige da se na jasan i pre- 
gledan način iznesu 1 komentiraju najvažniji rezultati teorije slučajnih varijabli, 
nužnih za sustavno i logički konzistentno iznošenje teorije statističkog zaključivanja, 
kako bi se izbjeglo previše pozivanja na citiranu literaturu, koja čitatelju uvijek 1 
nije dostupna. 

Najvažniji i najopsežniji je treći dio knjige, koji obuhvaća prave sadržaje 
matematičke statistike, tako da obrazovaniji, u matematičkom smislu, čitatelj može 
preskočiti prva dva dijela knjige. 

Pojednostavnjeno govoreći, središnje pitanje teorije statističkog zaključivanja 
jest što se može zaključiti o promatranoj pojavi na temelju određenoga konačnog 
niza podataka dobivenih mjerenjein (opažanjem) relevantnih veličina za tu pojavu. 
Tako postavljen problem očigledno je previše općenit i nejasan, tako da je potrebno 
usvojiti dodatne pretpostavke da bi se mogla razviti odgovarajuća teorija, koja će 
poslužiti kao oslonac za definiranje praktičnih postupaka statističkog zaključivanja. 

Pri gruboj klasifikaciji može se reći da u teoriji statističkog zaključivanja pos- 
toje dvije grupe problema — procjena parametara 1 testiranje hipoteza.  Proc- 
jeni parametara posvećeno je VI. (točkasta procjena) i VII. (intervalna procjena) 
poglavlje, testiranju hipoteza VIII, IX.i X. poglavlje, dok se u XI, XII, XIII. 1 XIV. 
poglavlju isprepleću obje problematike. 

Budući da je teorija statističkog zaključivanja, zapravo, sastavljena od skupine 
matematičkih modela prilagođenih i namijenjenih rješavanju određenih praktičnih 
problema, nastojalo se gradivo iznijeti tako da se jasno razluči praktični aspekt 
problema od teorijskoga. Zbog onih čitatelja koje prije svega zanima praktični 
aspekt i neposredna primjena metoda statističkog zaključivanja, nastojala su se 
izbjeći duga i teška matematička izvođenja, pa se na nekim mjestima čitatelj 
upućuje na navedenu literaturu, a mnogi teorijski izvodi i dokazi prebačeni su 
u zadatke (uz uputu) na kraju odgovarajućeg poglavlja. Neki temeljni teoremi 
(Rao-Cramerova nejednakost, Neyinan-Pearsonova lema, (aauss-Markovljev teorem 
1 dr.) ipak su potpuno izvedeni, jer se to moglo načiniti vrlo jednostavnim sred- 
stvima, a zahtjevnijeg čitatelja može potaknuti na dublje 1 studioznije upoznavanje 
matematičke statistike. 

Statističko zaključivanje je suptilan i poseban način zaključivanja, koji je poj- 
movno vrlo težak 1 zahtijeva pojačanu koncentraciju i umni napor. lako se sam 
postupak odlučivanja Inože prilično šablonizirati i svesti na rutinske operacije jed- 
nostavnog računanja s danim podacima te na primjenu odgovarajućih tablica, ili 
što je danas Jjoš češće na primjenu računala, shvaćanje pravog smisla i biti izvedenih 
zaključaka nije nimalo jednostavno. 

Statističke metode imaju bitna ograničenja, tako da se ne smiju primjenjivati 
bez odgovarajućih spoznaja o njihovom stvarnom dometu i pravom značenju u 
svakoj konkretnoj situaciji. Teorijska naobrazba istraživača 1 stručnjaka koji se 
koriste statističkim metodama mogu biti jamstvo da će se one ispravno upotreb- 
ljavati, tako da se ovom knjigom želi pridonijeti izgradnji i podizanju statističke 
naobrazbe svih onih kojima je to potrebno. 
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PRVI DIO 


DESKRIPTIVNA STATISTIKA 


Gotovo da i nema istraživačke djelatnosti u kojoj se bar u nekoj fazi ne po- 
javljuje potreba za prikupljanjem i analiziranjem određenih podataka o istraživanoj 
pojavi. U prirodnim i tehničkim znanostima istraživanja su redovito povezana s 
mjerenjima određenih fizikalnih veličina, tako da se rezultati mjerenja izražavaju 
brojevima, pa se govori o brojčanim ili numeričkim podacima. U nekim drugim 1s- 
traživanjirna rezultati se mogu iskazati određenim kvalitativnim atributima (boja, 
oblik, politički stav i sl.). 

Ako na rezultate mjerenja, odnosno opažanja, djeluju tzv. slučajni faktori, 
onda se govori o statističkim podacima. To znači da je priroda promatrane pojave 
takva da se ne mogu kontrolirati svi mogući utjecaji na proces koji dovodi do 
konačnog rezultata. Stoga se usvaja pretpostavka da izmjereni statistički podaci 
sadrže 1 odgovarajuću slučajnu komponentu. 

U deskriptivnoj statistici razvijene su određene metode 1 postupci za egzaktno 
proučavanje statističkih podataka. Pod tim se razumjeva sređivanje, prikazivanje 
i interpretiranje statističkih podataka, definiranje glavnih parametara, utvrđivanje 
njihovih teorijskih svojstava 1 njihova praktičnog značenja. 
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I. Prikazivanje statističkih podataka 


1. Tablica frekvencija 


Prilikom opažanja ili eksperimentiranja pažnja istraživača redovito je usmje- 
rena na jednu ili više veličina. Ako se promatra samo jedna veličina, označimo je 
sa A, onda je rezultat jednog mjerenja jedan realan broj #. Višestrukim ponavlja- 
njem mjerenja veličine X dobiva se konačni niz brojeva Z1,...,Zn, kao rezultat n 
ponovljenih mjerenja. Veličina X obično se naziva statističko obilježje, a dobiveni 
niz brojeva zi,..., En statistički podaci o promatranome statističkom obilježju X. 


1. primjer 


Neka .X označuje ocjenu iz matematike izraženu jednim od brojeva 1,2,3,4 15. 
Da bi se uvidjeli rezultati nastave matematike u jednom razredu od n = 30 učenika, 
promotrit će se njihove ocjene iz matematike na kraju školske godine. Uvidom u 
"imenik" dobiven je ovaj niz statističkih podataka: 


jasa rižaAssa sao 


Vidi se da jeti = 1, m =4 = 2 za = 3itd. Odmah se uočava da se 
neki brojevi pojavljuju u danom nizu više puta. Tako se broj 1 pojavljuje 3 puta, 
broj 2 pojavljuje se I! puta, broj 3 pojavljuje se 10 puta, 4 se pojavljuje 4 puta 
1 5 se pojavljuje 2 puta. Govori se još da ocjeni 1 pripada frekvencija 3, ocjeni 2 
frekvencija 11, ocjeni 3 frekvencija 10, ocjeni 4 frekvencija 41 ocjeni 5 frekvencija 2. 


Ako statističko obilježje X_ poprima samo vrijednosti iz nekoga diskretnog 
(konačnog ili prebrojivog) skupa A, onda se kaže da je X diskretno obilježje. U 
tom se slučaju prilikom mjerenja (opažanja) kao rezultati dobivaju elementi skupa 
A, pa se za svaki a € A može uočiti broj f njegova pojavljivanja u nizu od n 
mjerenja (opažanja) obilježja X. Broj f (f € (0,1,2,...)) zove se frekvencija, 


a broj p = > relativna frekvencija vrijednosti a u nizu statističkih podataka 
Čljšseia tn: 3 

U navedenom primjeru AX (ocjena iz matematike) je diskretno statističko 
obilježje i A = (1,2,3,4,5) je pripadni skup mogućih vrijednosti. Broju 1 € A 


*) 


pripada frekvencija fi = 31 relativna frekvencija pi = Taj 0,1. Broju 2 € A 


pripada frekvencija fo = 111 relativna frekvencija po = — 2 0,37 itd. 
Za pregledno prikazivanje statističkih podataka, uz primjenu pojma frekvencije 
1 relativne frekvencije, najčešće se upotrebljava tablica frekvencija. 


I as tiši Sina anali 


2 banana sena sl. 
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Tablica 1. 


Brojevi 41,...,a, elementi su skupa A i u tabl. 1. obično se redaju po veličini 
od manjih prema većima (a1 <a2<...<a,), dok su fi,..., fr pripadne frekven- 
cije, a Pi,...,Pr odgovarajuće relativne frekvencije. 

2. primjer 
Za statističke podatke iz 1. primjera tablica frekvencija izgleda ovako: 


Tablica 2. 


a Relativna 
Ocjena | Frekvencija PK 
frekvencija 


Zbroj svih frekvencija iznosi n = 830, tj. jednak je broju izvršenih mjerenja 
(opažanja), dok je zbroj svih relativnih frekvencija 1. ' 


Općenito vrijedi 


(1) i+hi++fr=) fi=n", 


i=1 


1.2 Grafikon frekvencija 19 


Relacija (1) neposredno slijedi iz definicije frekvencije. Budući daje0 < fj < n, 


onda je 0 < li < 1, a to se upravo izriče relacijom (2). Uvrštavanjem pj = — fj u 
r n 


n 
>. Dj, dobiva se 


= r Bi 1 r 1 
. DA ba ubir," 


11 =1 


a to se upravo tvrdi u (3). 


2. Grafikon frekvencija 


Na temelju tabličnog prikaza statističkih podataka izrađuju se različiti grafički 
prikazi. Ako se na apscisnu os pravokutnoga koordinatnog sustava u ravnini 
nanesu vrijednosti (podaci) obilježja X, a kao pripadne ordinate uzmu odgovarajuće 
frekvencije (relativne frekvencije), dobiva se grafikon frekvencija (relativnih frekven- 
cija) danog niza statističkih podataka. Spajanjem tako dobivenih točaka dobiva se 
odgovarajući poligon frekvencija. Očigledno je da između grafikona na sl. 1. 1 sl. 2. 
nema bitnih razlika, jer je zapravo riječ samo o promjeni mjerila na ordinatnoj osi. 


0 1 2 3 4 5 0 1 2 3 4 5 
Slika 1. Poligon frekvencija za podatke iz Slika 2. Poligon relativnih frekvencija za po- 
tabl. 2. datke iz tabl. 2. 


Govori se da je tablicom frekvencija, odnosno grafikonom frekvencija (relativ- 
nih frekvencija), zadana razdioba frekvencija u danom nizu statističkih podataka. 
Funkcija f: A > R, definirana formulom 


(4) Kaje: dj E A, PJ RE. 
zove se funkcija frekvencija, a funkcija p: A > R, definirana formulom 


(5) Pas EP, ajE A, [Za na 
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zove se funkcija relativnih frekvencija danog niza statističkih podataka o diskret- 
nome statističkom obilježju AX. 
Uobičajeno je da se definira 1 tzv. funkcija kumulativnih frekvencija 


(6a) K(a)= 9. fi,  z€R, 


odnosno funkcija kumulativnih relativnih frekvencija 


(6b) F(a)=3) pp, ozER. 


daj<T 


0 1 2 3 4 5 


Slika 3. Graf funkcije kumulativnih relativnih frekvencija 
za podatke iz tabl. 2 


Za ilustraciju definiranih pojmova razmotrimo još jedan primjer. 


3. primjer 


U industrijskom pogonu gdje se radi na velikom broju istovrsnih strojeva 
bilježen je dnevni broj kvarova na tim strojevima. Izvršeno je n = 200 opažanja, 
pri čemu su dobiveni podaci o statističkom obilježju X koje označuje dnevni broj 
kvarova. Podaci su odmali sređeni tako da je načinjena tabl. 3. 

U ovom je primjeru r = 20,a1=3,a9=4,...d20 = 221u tabl. 3. su navedene 
pripadne frekvencije, relativne frekvencije, kumulativne frekvencije i kumulativne 
relativne frekvencije. Na temelju tabl. 3. odmah se može načiniti odgovarajući 
grafikon relativnih frekvencija (sl. 4). Iz sl. 4. zorno se razabire da velike frekvencije 
pripadaju brojevima 9, 10 i 11, a također i ostala svojstva razdiobe frekvencija u 
danom skupu statističkih podataka. Tablica 3. omogućuje da se nacrta i pripadni 
gral funkcije kumulativnih relativnih frekvencija (sl. 5). 
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Slika 4. 


Grafikon relativnih frekvencija za 
podatke iz tabl. 3. 
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Slika 5. Grafikon funkcije kumulativnih rela- 
tivnih frekvencija za podatke iz tabl. 3. 
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3. Prikazivanje podataka nenumeričkoga 
statističkog obilježja 


Ako statističko obilježje nije numeričko, onda neki od definiranih pojmova 
nemaju smisla, jer skup A nije brojčani skup. 


4. primjer 
Svaki napisani tekst može se shvatiti kao niz statističkih podataka o slovima 


abecede. Na temelju toga niza također se može načiniti pripadna tablica frekvencija. 
Pogledajmo kako izgleda tablica frekvencija slova abecede, ako se kao niz podataka 


Relativna 
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uzmu upravo napisane tri rečenice (n = 2835). Pri brojenju se ne razlikuju velika i 
mala slova. 

Očigledno je da se sada ne može govoriti o grafikonu frekvencija i poligonu 
frekvencija u onom smislu kako je to bilo kod brojčanoga diskretnog statističkog 
obilježja. Skup A = (a,b,c,...,v,z,ž) vrijednosti statističkog obilježja ima kao : 
svoje elemente slova i stoga se ne može formirati koordinatni sustav za prikazivanje 
razdiobe frekvencija. 

Da bi se ipak i zorno geometrijski uočila razdioba frekvencija po slovima 
abecede, može se nacrtati histogram frekvencija (relativnih frekvencija) tako da 
se iznad ispisanog slova nacrta pravokutnik visine jednake frekvenciji (relativnoj 
frekvenciji) toga slova u danom nizu (tekstu). 


Ehiryjko|ljmnnjo p 


Slika 6. Histogram frekvencija za podatke iz 4. primjera 


Izgled histograma frekvencija ovisi, dakako, o primijenjenom redoslijedu slova. 
Na sl. 6. primijenjen je tzv. abecedni redoslijed, međutim može se primijeniti i 
neki drugi redoslijed. Načini li se redoslijed slova tako da na prvo mjesto dođe naj- 
frekventnije slovo, a zatim se po opadajućim frekvencijama poredaju ostala slova, 
pripadni histogram frekvencija izgleda posve drukčije (sl. 7). 
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Slika 7. Histogram po opadajućim frekvencijama za podatke iz 4. primjera 


Za određena lingvistička istraživanja veću vrijednost ima histogram frekvencija 
na sl. 7. od onoga na sl. 6, jer se neke lingvističke zakonitosti, očigledno, lakše mogu 
uočiti na sl. 7. nego na sl. 6. 
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4. Kontinuirano statističko obilježje 


Ako je riječ o statističkom obilježju X koje može poprimati vrijednosti iz nekog 
intervala skupa R realnih brojeva, onda se govori o kontinuiranome statističkom 
obilježju X. 


5. primjer 


Mjerenjem tlačne čvrstoće X tako da se načini n = 100 jednakih betonskih 
kocki, koje se izrađuju na odgovarajući način i zatim stavljaju u prešu 1 pritom se 
mjeri sila pri kojoj se kocka lomi, dobiveni su ovi rezultati (u MPa - megapaskali- 
ma): 


30,97 , 42,63 , 35,76 , 45,00 , 40,15 , 38,79 , [47,12] , 33,56 , 39,22 , 34,47 , 32,54, 
42,13 , 37,63 , 41,55 , 46,93 , 42,00 , 33,75 , 33,00 , 33,70 , 35,69 , 40,09 , 43.41 
40,32 , 35,73 , 36,87 , 30,16 , 40,83 , 36,65 , 30,96 , 36,36 , 32,72 , 36,73 , 29.70 
40,08 , 35,98 , 35,83 , 39,49 , 33,16 , 32,93 , 30,32 , 37,05 , 32,60 , 32,79 , 41,17 
39,48 , 37,54 , 33,09 , 40,74 , 34,82 , 37,52 , 37,93 , 30,09 , 43,36 , 36,17 , 35,59 

25,67 , 32,99 , 36,90 , 38,10 , 36,66 , 28,86 , 32,88 , 45,02 , 35,17 , 35,09 , 33,89. 
27,26 , 35,94 , 33,77 , 29,50 , 27,10 , 36,39 , 32,22 , 38,89 , 30,81 , 37,60 , 30,18. 
39,76 , 37,69 , 27,28 , 37,94 , 32,15 , 34,88 , , 30,05 , 36,11 , 32,10 , 38,18 , 
I 33,01 , 29,18 , 40,82 , 39,01 , 33,86 , 32,79 , 31,56 , 28,36 , 37,06 , 33,09 , 


Dobiven je, dakle, niz od n = 100 statističkih podataka, pri čemu je z, = 30,97, 
TI9 = 42, 63 jaka kog E 33, 09, £100 = 29, 60. 

Odmah se može uočiti da u ovom nizu od 100 podataka nema međusobno 
jednakih brojeva, što je donekle i razumljivo ako se ima na umu priroda mjerene 
veličine. U ovom je, naime, primjeru statističko obilježje X fizikalna veličina koja se 
mjeri odgovarajućom mjernom jedinicom (paskal) i teorijski gledano može poprimiti 
bilo koju vrijednost iz intervala (0,00). Budući da se raspolaže s vrlo velikim 
brojem mjerenja (n = 100), pri čemu se pojavljuje i velika raznolikost u rezultatima 
mjerenja, prirodno se nameće ideja da se izvrši određeno grupiranje podataka kako 
bi se dobila pregledna tablica frekvencija i odgovarajući grafički prikazi. 

i Da bi se to postiglo najprije se uoči najmanja (Zmin S Z84 = 25,13) i naj- 
veća (Zmax = 27 = 47,12) vrijednost u danom nizu statističkih podataka. Prema 
tome, svi se podaci nalaze u intervalu [25,13 ; 47,12]. Uzme li se taj interval, ili 
radi praktičnosti nešto širi interval / = [25,49], i razbije na 20 podintervala ili 
razreda širine 1,2 i zatim odredi frekvencija svakog razreda, tj. broj onih rezul- 
tata u danom nizu statističkih podataka koji pripadaju dotičnom razredu. dobiva 
i E frekvencija za grupirane podatke promatranoga statističkog obilježja AX 

abl. 5). 

o Iz tabl. 5. vidi se da je 1. razred, zapravo, interval [25,0 ; 26,2), 2. razred je 
interval [26,2 ; 27,4) itd., sve do 20. razreda koji je, zapravo, interval [47 8 ; 49,0] 
U tabl. 9. navedena je i sredina svakog razreda, te pripadne frekvencije ielativne 
frekvencije, i kurnulativne frekvencije za dani niz statističkih podataka. | 


) 


) 


) 


j 
k 
ž 
H 
š 
k 
i 
H 

j 


1 
f 
f 
š 
i 
i 
d 
| 
i 
f 


I.5 Grupiranje podataka u razrede 25 


Tablica 5. 


Redni Donji jo bike SE a Relativna _ | Kumulativna 
. Gornji rub | Sredina | Frekvencija aa 
broj rub Irekvencija relativna 


' razreda razreda razreda ie 
razreda | razreda razreda frekvencija 
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5. Grupiranje podataka u razrede 


Primjer 5. upućuje nas kako da se općenito za dani niz z1,...,Zn statističkih 
podataka o nekome kontinuiranom obilježju X načini pregledni prikaz pomoću 
odgovarajuće tablice frekvencija. Prvi korak sastoji se u definiranju razreda. 
Razredi su određeni disjunktni podintervali intervala svih imogućih vrijednosti 
kontinuiranoga statističkog obilježja X. Širine pojedinih razreda, u načelu, su 
proizvoljne 1 njihov izbor nije uvjetovan teorijskim razlozima, već praktičnim potre- 
bama da tablica bude pregledna i da se mogu uočiti bitna svojstva promatranoga 
statističkog obilježja. Redovito se radi o razredima jednake širine i broj # razreda 
bira se obično u ovisnosti o broju n podataka u danom nizu. Postoje određene pre- 
poruke o izboru broja r u ovisnosti o broju » (r treba biti 5 — 10 % od n, ali ne veći 
od 30), ali to se zasniva na empirijskim spoznajama 1 nema teorijskog utemeljenja. 

Tablični prikaz statističkih podataka o nekom kontinuiranom obilježju X, pri- 
Imjenom grupiranja podataka, općenito izgleda ovako: 


mE nep 
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Tablica 6. 


Redni Donji Gornji 


Relativna Kumulativna 
broj rub rub 


frekvencija relativna 
frekvencija 


Sredina | Frekvencija 
razreda razreda 


razreda | razreda | razreda razreda 


Broj ao izabran je tako da vrijedi ag < Zimu, a broj a, tako da vrijedi 


dy > Zmax. Nadalje vrijedi 


(7) WG<dH<a<...<ai<a, 


n 


__1 I d 
(8) dj=5laj-i+4j), Dj= — fj M=23. 865: Jes ho 
i=1 


Ako je riječ o razredima jednake širine d, onda je 


dr — dg 

(9) i= = 
r 

Očigledno je da i u ovom slučaju vrijedi 


(10) pa; 77 0 psi, X pik 


J=1 jE 


dj=do+)d, Jezik daa: 


U 5. primjeru imali smo r = 20, ay = 25, 420 = 49 1d = Z = 1,2, iz čega 
su proizašle vrijednosti ay = 26,2, a» = 27,4, a3 = 28,6 itd. Iz tabl. 5. vidi se da 
je fi = 2, što znači da u danom nizu statističkih podataka postoje dva broja koja 
pripadaju razredu (intervalu) [25 ; 26,2). To su brojevi zg4 = 25,13 1 256 = 25,67. 
Također se vidi da je fo = 3, tj. da 2. razredu pripada frekvencija 3, što znači 
da postoje tri broja u danom nizu statističkih podataka koja se nalaze u intervalu 
(20,2: 27,4). To su brojevi 267 = 27,26, zri = 27,10 i zgo = 27,28. 

Općenito u 1-ti razred [aj_1,aj)(j=1,...,r) ulaze svi oni podaci danog niza 
statističkih podataka koji su veći (ili jednaki) od donjeg ruba a;_,, a manji od 
gornjeg ruba aj toga razreda. Jedino r-ti razred sadrži i podatke koji su jednaki 
gornjem rubu a, toga razreda. 


6. Histogram i poligon frekvencija 


Na temelju tabličnog prikaza statističkih podataka načinjenog primjenom 
STupiranja podataka (tabl. 6) može se načiniti i odgovarajući grafički prikaz. Ako 
“e na apscisnu os pravokutnoga koordinatnog sustava u ravnini nanesu vrijednosti 
rubova (granica) razreda i zatim iznad svakog razreda ucrta pravokutnik visine 
Jednake odgovarajućoj frekvenciji (relativnoj frekvenciji) toga razreda, dobiva se 


di 
NERA 
voj 
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tzv. histogram frekvencija danog niza statističkih podataka koji, dakako, ovisi o 
izvedenom grupiranju podataka. 


15 15 
7 
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Slika 8. Histogram frekvencija za podatke iz Slika 9. Poligon frekvencija za podatke iz 
tabl. 5. tabl. 5. 


Ako se, pak, na apscisnu os nanesu sredine razreda, a kao pripadne ordinate 
uzmu odgovarajuće frekvencije (relativne frekvencije), dobiva se poligon frekvencija 
danog niza statističkih podataka uz provedeno grupiranje podataka u razrede. 

Poligon frekvencija može se interpretirati i kao linearna interpolacija funkcije 
definirane formulom 


(11) A EI E = li vošu 


gdje je aj sredina j-tog razreda. Ova funkcija također se zove funkcija frekvencija, 
a funkcija definirana forinulom 


(12) paj=n:; JE ie 


zove se fuukcija relativnih frekvencija danog niza statističkih podataka o kontinulra- 
nom obilježju AY i primijenjenog grupiranja podataka. 

Ovo razmatranje upućuje na činjenicu da je pri grupiranju podataka u razrede, 
zapravo, riječ o tome da se sve vrijednosti iz j-tog razreda aproksimiraju sredi- 
nom aj toga razreda. Time se, dakako, gubi određeni dio informacije o proma- 
tranoj pojavi sadržane u izmjerenom nizu statističkih podataka, ali se, na drugoj 
strani, dobiva mogućnost da se razluče bitna svojstva promatranoga kontinuiranog 
statističkog obilježja X od nebitnih. 

Kakve se promjene zbivaju kada se promijeni broj razreda, što povlači 1 prom- 
jenu širine razreda, ilustrirat će se idućim primjerom. 


6. primjer 


Ako se statistički podaci iz 5. primjera grupiraju u r = 10 razreda, dobiva se 
tablica frekvencija prikazana tablicom 7. 
Sada je širina razreda d = —(ajo— a9) = 2,4 1 očigledno je da sredina razreda 


10 


grublje aproksimira vrijednosti razreda nego pri grupiranju istih podataka u 20 
razreda širine 1,2. No pogleda li se pripadni histogram relativnih frekvencija (sl. 
10) za tabl. 7. 1 pripadni poligon relativnih frekvencija (sl. 11), očigledno je da se 
na njima lakše uočavaju određne pravilnosti u razdiobi frekvencija pri promatranju 
uočenoga statističkog obilježja X, nego što se to može vidjeti na sl. 8. 1 sl. 9. 
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Tablica 7. 


Redni Donji Gornji 
bro) rub rub 


Relativna Kumulativna 


Sredina | Frekvencija “i ' 
frekvencija relativna 


razreda razreda 


razreda | razreda | razreda razreda frekvencija 


O % 10 A LB os 


i 
e 


0,20 
0,10 
0 
25.28. 31.34. 37. 40. 43. 46. 49 
Slika 10. Histogram relativnih frekvencija za Slika 11. Poligon relativnih frekvencija za po- 
podatke iz tabl. 7. datke iz tabl. 7. 


7. Funkcija kumulativnih frekvencija 


Za podatke iz tabl. 7. može se nacrtati i graf funkcije z > F(z) ze nR 
kumulativnih relativnih frekvencija, što je prikazano na sl. 12. 
Krivulja na sl. 12. nacrtana je tako da su najprije dužinom spojene točke 
(25,0 ; 0) 1 (27,4 ; 0,05), zatim su dužinom spojene točke (27,4 ; 0,05) i (29,8 ; 0,11) 
pa točke (29,8 ; 0,11) i (32,2 ; 0,22) ita. a 
Općenito se graf funkcije kumulativnih relativnih frekvencija z > F(z) za 
podatke o kontinuiranome statističkom obilježju crta tako da se dužinama spoje 


točke S koordinatama (aj, Fora (4j41, ja) (j = 1,...,7), pri čemu je početna 
točka (40,0). Očigledno je da se može pisati ; 


irm) Jesi s u 


. Time se dobiva krivulja, poput one na sl. 12, koja se sastoji od dužina. Na 
lijevom kraju krivulja počinje na apscisnoj osi (točka (a9,0)), a na desnom kraju 
završava u točki (a,,1). Unutar intervala [ag,a,] krivulja je monotono rastuća i 
zorno pokazuje (svojim nagibom) kako se nakupljaju (kumuliraju) dani statistički 
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25 31 37 43 49 


Slika 12. Graf funkcije kumulativnih relativnih frekvencija 
za podatke iz tabl. 7. 


podaci duž apscisne osi. Strmiji nagib krivulje odgovara većoj brzini kumuliranja 
podataka. 

Krivulja kumulativnih relativnih frekvencija produžuje se i izvan intervala 
[Gg, ar], ito ulijevo po osi apscisa, a udesno po pravcu usporednom s apscisnom osi 
na visini jedan. Izvan intervala [ag,a,] nagib krivulje je nula, a to znači da u tom 
dijelu apscisne osi nema brojeva iz danog niza statističkih podataka. Može se do- 
goditi da krivulja kumulativnih relativnih frekvencija bude usporedna s apscisnom 
osi i na nekom podintervalu intervala [ag,a,] 1 to onda znači da u tom području 
nema brojeva iz promatranog niza statističkih podataka. 

Sada se, slično kao i kod diskretnoga statističkog obilježja, može reći da je 
tabliconi frekvencija te pripadnim histogramomi frekvencija, odnosno krivuljom ku- 
mulativnih relativnih frekvencija, defimrana razdioba frekvencija u danom nizu 
statističkih podataka o promatranome kontinuiranom statističkom obilježju X. 
Važno je, ipak, primijetiti da postoje bitne razlike između razdiobe frekvencija 
kod diskretnog i kod kontinuiranog obilježja. Kod diskretnog obilježja frekvencije 
(relativne frekvencije) se pridružuju brojevima, dok se kod kontinuiranog obilježja 
frekvencije pridružuju razredima, tj. brojevnim intervalima. Stoga danim nizom 
statističkih podataka o nekom kontinuiranom obilježju i nije jednoznačno određena 
pripadna razdioba frekvencija, što je slučaj kod diskretnog obilježja. Razdioba 
frekvencija kod kontinuiranoga statističkog obilježja ovisi o načinu grupiranja po- 
dataka u razrede. 


“E 
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8. Mehanička interpretacija razdiobe frekvencija 


Zanimljivo je primijetiti da postoji određena pojmovna i računska analogija 
između pojma "razdioba frekvencija (relativnih frekvencija)" i mehaničkog pojma 
" linijska razdioba (distribucija) mase". 

Ako se pri diskretnome statističkom obilježju X brojevi aj,...,a, (v. tabl. 1) 
interpretiraju kao apscise točaka na brojevnoj osi, abrojevi fi,..., fr (frekvencije), 
odnosno brojevi pi, ...,Pr (relativne frekvencije), kao pripadne mase, onda se može 
govoriti o određenoj razdiobi ukupne mase n, odnosno 1, po danom pravcu. Prema 
tome, može se tumačiti da je tablicom I. definirana određena linijska razdioba mase, 
pa se u tom smislu mogu tumačiti i formule (1), (2), (3) te (Ga i 6b). Formula (Ga), 
na primjer, pokaznje onu količinu mase koja je raspodijeljena lijevo od točke s 
apscisom z (z € R), uključujući i tu točku. 


F(z) 
Pi. .<p2 PJ Pr 
———————————————————————————————————> 
a) a2 aj I ar 


Slika 13. Linijska razdioba mase diskretnog tipa 


Analogija između razdiobe frekvencija i linijske razdiobe mase ima dalekosežne 
posljedice i omogućuje lakše usvajanje i zorno predstavljanje mnogih pojmova koji 
će se definirati u vezi sa statističkim podacima. 

I u slučaju kontinuiranoga statističkog obilježja može se uspostaviti analogija 
između razdiobe frekvencija i linijske razdiobe mase. Tada se, naime, frekvencija 
fj, odnosno relativna frekvencija razreda pj, interpretira kao jednoliko kontinuirano 
raspodijeljena masa na intervalu [a;_1,a;) brojevne osi. Stoga se može tumačiti da 
je tablicom 6. definirana određena kontinuirana linijska razdioba ukupne mase n, 
odnosno 1, po danom pravcu. 


a3 đ] a2 4j—| 4j Tr dr 


Slika 14. Kontinuirana linijska razdioba mase ) 


Veličina F'(x) pokazuje onu količinu mase koja je raspodijeljena lijevo od točke 


z(z € R). 


1. Zadaci 31 


Primjedba 


Za sređivanje i prikazivanje statističkih podataka danas se uvelike upotreb- 
ljavaju računski strojevi, napose tzv. osobna računala (personal computer, PC) 
i dodatna oprema koja ide uz njih (monitori, pisači i sl.) Da bi se što više 
olakšala primjena računala u obradi statističkih podataka, izrađeni su tzv. pro- 
gramski paketi za pojedine tipove zadataka. Nakon unošenja u računalo, opskrblje- 
no odgovarajućim programskim paketom, niza statističkih podataka, jednostavnim 
postupkom omogućeno je dobivanje odgovarajućih tablica frekvencija i relativnih 
frekvencija, te pripadnih grafikona, histograma i drugih oblika grafičkog prikaza 
danih podataka. 


Zadaci 


Za statističke podatke o diskretnom statističkom obilježju .X u zadacima 1-7. 
načinite pripadnu tablicu frekvencija i relativnih frekvencija, grafikon frekvencija i 
poligon relativnih frekvencija, te graf funkcije kumulativnih relativnih frekvencija. 


1. X — broj dobiven bacanjem igraće kocke: 1, 3, 1, 6, 2, 6, 4, 6, 3, 3, 4,3, 1,4, 
4, 1, 4, 9, 3, 9, 4, 1, 1, 1, 9, 4, 3, pm 1, 4, 6, 4, 3, Žž Ž ZA 3, 6, L, 2, 2 sa 5, 3, 
Lo. D240 
2. X — broj odsutnih učenika na satu matematike: 2, 5, 1, 1, 3, 4, 4, 4, 2, 3, 3, 

4,;0,0,;4;4,9; 011,42; 649,6 49,2. 200,4, 09.24.24, 4.909. 

3. X — dnevni broj prometnih nezgoda na određenoj cesti: 0, 0, 2, 3, 2, 1, 
2245147042. 12.0, 4 hh ZG 04 2 GAL GU 2.20 
3,4 

4. X — broj dana bez oborina u mjesecu rujnu: 21, 16, 20, 17, 18, 21, 13, 18, 22, 
15, 19, 19, 16, 14, 22, 16, 17, 16, 14, 16. 

5. A — dnevni broj prodanih pari cipela u nekoj prodavaonici obuće: 99, 103, 
94, 97, 89, 101, 105, 87, 95, 124, 105, 100, 107, 90, 114, 119, 99, 105, 84, 96, 
103, 94, 81, 96, 108, 112, 85, 96, 98, 110, 99, 113, 112, 96, 115, 114, 100, 104, 
104, 94. 

6. X — tjedni broj kvarova na strojevima nekoga industrijskog pogona: 0, 0, 1 
10:9; 1:0, 43 E2220) P2020004. 5 06 2 EK 2 E E.2 
Dok; 9; 2 10 429 2 AE 20. o de 

7. X — broj telefonskih razgovora preko određene telefonske centrale u jednom 
satu: 24, 35, 29, 28, 29, 16, 31, 26, 23, 33, 25, 19, 32, 31, 23, 16, 17, 26, 23, 
21. 21,24. 20:28 19% 

Statističke podatke o kontinuiranome statističkom obilježju X u zadacima 8 — 

14. grupirajte u razrede, načinite pripadne tablice frekvencija i relativnih frekven- 

cija, nacrtajte histogram i poligon frekvencija, te graf funkcije kumulativnih rela- 

tivnih frekvencija. 


8. A — vlačna čvrstoća čelične žice (MPa): 285, 341, 323, 300, 313, 294, 305, 
317, 286, 312, 267, 316, 300, 298, 312, 319, 296, 284, 293, 298, 322, 292, 267, 
305, 299, 275, 318, 304, 298, 301, 282, 309, 297, 313, 296, 323, 305, 307, 289, 
307, 396, 342, 310, 336, 286, 320, 290, 323, 288, 306. 


4,2, 
32 


) ) ) 


) 


) ) ) ) 
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9. X — vijek trajanja žarulje (sati): 0,4 , 53,3 , 254,7, 41,1, 220,6 , 201,6 34, 
143,3 , 108,8 , 131,7 , 54,0 , 233,1 , 29,1, 17,8 , 13,9 , 143,5 , 520,8 , 318,4 , 
45,9 , 246,4, 178,4 , 83,5. , 871,3 , 76,7 , 416,7 , 708,0 , 46,8 , 39,0 , 349,3, 
966,5 , 80,6 , 188,8 , 41,83 , 174,8 , 394,8 , 4,2 , 146,6 , 564,0 , 5,3 , 242,5, 

10. X — godišnja količina oborina (litara/m?): 634, 655, 483, 733, 679, 719, 471, 
691, 621, 618, 567, 505, 541, 578, 540, 636, 571, 578, 525, 526, 557, 497, 989, 
613, 692. 

11. X - težina novorođenčeta (kg): 3,75 , 3,83 , 3,60 , 3,61 , 3,68 , 3,95 , PA 
3,64 , 3,88 , 3,39 , 3,22, 4,03 , 3,62 , 3,79 , 4,21 , 3,85 , 3,17 , 4,00 , 3,52, 
3,39, 8,79 , 4,24 , 3,95 , 2,46 , 2,95 , 3,27 , 3,57 , 2,53 , 3,50 , 3,27 , 3,29 : 
2,26 , 3,45 , 3,09 , 3,62 , 3,08 , 4,32 , 3,35 , 3,18, 2,84. 

12. A - visina dvadesetogodišnjaka (cm): 185, 188, 177, 172, 180, 172, 179, 172, 
179, 182, 169, 176, 160, 178, 176, 174, 170, 186, 172, 176, 169, 179, 182, 179, 
165, 176, 159, 168, 174, 189, 182, 183, 181, 170, 168, 160, 178, 171, 174, 187, 
166, 172. 

13. X - tlačna čvrstoća cementne kocke (MPa) 218295. 22.8. 295.247; 
23,1, 26,6 , 24,5 , 26,7 , 24,9 , 28,4 , 29,6 , 22,0 , 26,1 , 24,8 , 24,5 , 27,6 ' 
25,1, 24,6 , 23,5, 23,2, 26,0 , 25,4 , 23,3 , 23,7 , 26,7 , 23,1 , 24,5 , 24,5, 
20/84. 240.522 0,419: ;:20,55 29. 5. 23. 4 2606 :2160. 26.0 22.1. 

14. X - vrijeme utrošeno za popravak stroja (sati): 6,07 , 1,09 , 3,67 , 0,35, 
0,68 , 0,06 , 0,51 , 0,55 , 0,46 , 4,24 , 0,80 , 2,21 , 0,77 , 0,96 , 6,28 , 3,67, 
kF2, 004,240; 100.019.212: 130. 0.14.3185. 

15. Promatrajte početna slova svih riječi na str. 17 ove knjige, načinite pripadnu 


tablicu frekvencija i skicirajte odgovarajući histogram frekvencija. Usporedite 
dobivenu sliku sa sl. 6. Nacrtajte i sliku koja će biti analogna sl. 7. 


II. Parametri niza statističkih podataka 


1. Aritmetička sredina 


Kada je riječ o iole brojnijem nizu statističkih podataka, onda već tablični, 
a pogotovo grafički prikaz tih podataka omogućuje vrlo jasan i pregledan uvid u 
bitna svojstva pojave koja se proučava uz pomoć tih podataka. No, odmah se 
može postaviti i zahtjev da se bitna svojstva promatranoga statističkog obilježja 
X izraze još sažetije, tj. da se karakteriziraju uz pomoć jednog parametra (broja) 
ili više njih, koji će se, dakako, na određeni način definirati pomoću danog niza 
T1,...,Zn Statističkih podataka o obilježju X. 


Jedan od najvažnijih parametara koji grubo pokazuje smještaj (lokaciju) danih 
statističkih podataka na brojevnoj osi jest aritmetička sredina ili prosjek 
danog niza brojčanih podataka. Obično se označava sa F i definira formulom 


Tako se, na primjer, za statističke podatke iz 1. primjera I. poglavlja dobiva 


l 81 
Z= —(I1+4+2+83+...+838+3+2)= —=2,7, 
30 30 
pa se može reći da je u danom nizu ocjena iz matematike aritmetička sredina ili 
prosjek 2,7. Kaže se još da je srednja ocjena iz matematike učenika dotičnog razreda 
ra 
Odmah se može primijetiti da parametar Z ima apstraktni karakter, jer je jasno 
da se vrijednost 2,7 uopće ne može realizirati pri opažanju statističkog obilježja X 
(ocjena iz matematike). 
Za statističke podatke iz 5. primjera I. poglavlja dobiva se 


l 
100 
To pokazuje da je prosjek izmjerenih tlačnih čvrstoća betonskih kocki 35,52 MPa. 

Pogleda li se položaj broja 2,7 na sl. 1.1 sl. 2. u prvom poglavlju, odnosno 
položaj broja 35,52 na apscisnoj osi na sl. 8, 9, 10.1 11, odmah se vidi da pros- 
jek danog niza statističkih podataka pokazuje lokaciju tih podataka na apscisnoj 
Osi 1 može se uzeti kao određeni reprezentant svih brojeva danog niza statističkih 
podataka. 


(30,97 + 42,63 +... + 33,09 + 29,60) = 35,52. 


r= 


E. sm 
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Da bi se što bolje shvatio smisao definicijske formule (1) te praktično značenje 


prosjeka z danog niza podataka, korisno je pogledati glavna teorijska svojstva tako 
definirane veličine. 


Temeljno svojstvo prosjeka definiranog u (1) izraženo je relacijom 


n 


(2) | (m-Z)+...+(mn-Z)=3) (mE) =0. 


i=1 


Valjanost jednadžbe (2) je očigledna, a njome se izražava da je zbroj svih 
odstupanja podataka od njihova prosjeka jednak nuli. To pokazuje u kojem smislu 
treba shvatiti € kao određenu sredinu danog niza statističkih podataka. 

Druga važna osobina prosjeka ZF može se uočiti ako se promotri zbroj kvadrata 
odstupanja danih podataka od nekoga realnog broja c (c € R). Dobiva se 


Pao Bu-n4a-on 
=a) +27—0) (2 —F)+n(F—e)?. 


Budući da je 97 (£; — £) = 0, konačno se dobiva 
i=1 


(3) Do i-o*=> (m-7)+n(g-e)>0. 


i=l1 


Iz (3) se razabire da je 


(4) 


1 da znak jednakosti u (4) vrijedi onda i samo onda ako je c = £. To znači 
da je zbroj kvadrata odstupanja danih podataka od prosjeka ZF manji od zbroja 
kvadrata odstupanja danih podataka od bilo kojega drugog broja c # Z. 


Prema tome, £ kao određena sredina danih podataka ima svojstvo da je zbroj 
odstupanja od T jednak nuli, a zbroj kvadrata odstupanja od Z, kao određena 
nenegativna veličina, najmanji je. 

Ako su statistički podaci o nekome diskretnom obilježju već sređeni u tablicu 
frekvencija (tabl. 1 u L. 1), onda se prosjek T može izračunati pomoću formule 


r 


ES | l 
5 = 29) 
(5) = mfi+..+afi)= dif; 
ka) 
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odnosno pomoću formule 


r 


(6) Z=api+...+a,p, = 3. ajpj 
izi 


Valjanost formule (5) proizlazi iz samog pojma frekvencije f; podatka a; 
u danom nizu zi,...,Zn, dok (6) slijedi iz (5) kada se uzme u obzir da je 


1 roi ' mm : 
= $li=1,...,r). Tako se, na primjer, prosjek statističkih podataka iz 


1. primjera u 1. 1. može izračunati i iz tabl. 2u I. 1. Primjenom (5) dobiva se 
l 
E= 5(1:3+2:11+3-10+4-44+5.2)=2,, 


a primjenom (6) proizlazi 


l 11 1 2 1 

ra ed hee. pregon Mens) Mmm 

pro E 

Ako je riječ o podacima kontinuiranoga statističkog obilježja i ako se za 

izračunavanje prosjeka Z želi iskoristiti tablica frekvencija gdje su podaci grupi- 
rani u razrede (tabl. 6. u 1. 5), onda se može definirati veličina 


r r 


1 
(7) i=-)qfi=>) UP; 


Veličina F definirana u (1) i veličina £ definirana u (7) općenito nisu jednake, jer je 
z aritmetička sredina ili prosjek grupiranih podataka, pri čemu je izvorni podatak 
zamijenjen sredinom pripadnog razreda. Očigledno je da i parametar £ pokazuje 
položaj danih podataka na brojevnoj osi i kao takav se ubraja u tzv. parametre 
lokacije. Osim toga Z i £ redovito se malo razlikuju, pa se za praktične potrebe 
često umjesto z uzima z. 

Ako se, na primjer, na temelju tabl. 5. iz I. 4. izračuna 


f = 77(25,6:2+26,8:3+...+47,2-2 +48,4-0) = 35,49, 


vidi se da postoji mala razlika od vrijednosti Z = 35,52 dobivene na temelju formule 


(1) i izvornog niza (negrupiranih) podataka. 
Uzme li se, pak tabl. 7. iz 1. 6. kao osnova za računanje prosjeka grupiranih 


podataka, dobiva se 


l 
li = T00 25:2 +5+28,6 +6+...+47,8 +2) = 35,55, 
pa se vidi da je dobivena vrijednost različita i od Zi od £, ali da su te razlike 


praktički beznačajne. 
Ako se razdioba relativnih frekvencija interpretira kao linijska razdioba ukupne 
mase 1, kako je to već ranije opisano u I. 8, onda se statistički pojam prosjeka može 


> 


_ 
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mehanički interpretirati kao težište. Formule (6) i (7), kojima su definirane veličine 
Zi, identične su formulama kojima se u mehanici definira apscisa težišta za danu 
linijsku razdiobu mase. 

Ako se još pretpostavi da se raspodijeljena masa nalazi u određenome gravita- 
cijskom polju, onda su uz mase vezane i odgovarajuće sile, pa se veličina T, odnosno 
Z, može interpretirati i kao statički moment tih sila u odnosu na ishodišnu točku 
brojevne osi. Promotri li se statički moment tih sila u odnosu na točku apscise T 
(težište), dobiva se 


(aa—T7)pi+...+(a,—Z)p, = 0, 


a to je poznati rezultat iz mehanike da je statički moment danih sila u odnosu na 
težište jednak nuli. 

Može se, prema tome, reći da prosjek danog niza statističkih podataka 
reprezentira cijeli niz podataka na isti način kao što težište odgovarajuće linijske 
razdiobe masa reprezentira ukupnu masu. 


2. Medijan 


Osim prosjeka niza statističkih podataka definiraju se još i neki drugi parametri 
lokacije. Najpoznatiji je medijan, koji ćemo označivati sa m. Za definiciju 
medijana m pretpostavit ćemo da su podaci poredani po veličini, tj. da vrijedi 
DEM Ea sE z!. Tada se definira 


/ 
s(2a +241), Za parno n 
(8) m = 2 2 JU 
boku za neparno n. 
2 


Zanimljivo je primijetiti da na vrijednost medijana m utječu samo središnji 
podaci iz danoga uređenog niza T4,...,L,, Za razliku od prosjeka FZ na kojega 
svaki od podataka ima određeni utjecaj. Medijan se neće izmijeniti ako se, recimo, 
najmanji od danih n (n > 3) podataka proizvoljno smanji, ili najveći podatak 
po volji poveća. Medijan m je neosjetljiv na ekstremne vrijednosti u danom nizu 
podataka. 

U 1. primjeru iz 1. 1. imali smo n = 301 niz danih podataka poredan po veličini 


izgleda ovako: 


o _ m am pa aa [ZVONI "one 1 _ € a... / NE oK / 
ri=lmn=laea=lmn=25=2=2m=2Tg=2T=2T0=2, 
ge 2 game m e o ge pe s oma MREZE ST Mae 

ME lan dt3= 2 T= 2,015 =3,016=3,717=3,718 53,719 53,... 


Stoga iz (8) proizlazi da je 


1 
mi zlZ15 +216) =3. 
Za statističke podatke iz tabl. 3. u I. 2. vidljivo je da je n = 200, 2. = Figo Z 101 
Zhaij = Zlor Z 10, pa se na temelju (8) dobiva 
2 


+ 


l 
me 5 (2100 + 2101) = 10. 


: 
1 
2 


mete pr et en je 


js a NP ote joe ža pK Or paeatetia 
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Praktična interpretacija medijana m, kao određenog parametra lokacije danog 
niza statističkih podataka, sastoji se u tome da je m ona točka na brojevnoj osi, 
koja ima svojstvo da se lijevo i desno od nje nalazi jednak broj podataka danog 
niza. Točka m, dakle, dijeli dani niz podataka na dva jednakobrojna dijela. 

Medijan ima još jedno zanimljivo svojstvo, a to je da zbroj apsolutnih vrijed- 
nosti odstupanja danih podataka od nekog broja c (c € R) poprima minimalnu 
vrijednost, ako se uzme c = m. Dokažimo to. Očigledno se može pisati 


5 
Me = c| SP pora “= c|), za parno n 


Z . 
> li-d=1 2 


3 2 
i=1 2 (zi — el + fengai — 0d) + longa — c|, za neparno n. 
i= 


Uzme li se € = m, vidi se da je 
lt; — ml + EE — m] = |z; — Hate, 


n—1 


. n : : ; 
zai=1,...,— kadajen parno, odnosnozat=1,..., kada je n neparno. Iz 


ovoga odmah slijedi da je 


Ž 
X le > Zh+1-ib  Zaparnon 


n 

> le-mi=4 2 

i=1 : / / 

i= 

|2; — Fa+1-ib Za neparno n. 
t=1l 

Ako je n parno i e m, te ako između c i m nema nijednog podatka danog niza, 
onda je 


ri n 
» le eb= 212 — mj, 


iza i=1 
Ako je e Ž m, recimo € < m, i bar jedan od podataka nalazi se u intervalu [c, m], 
tada za z; < c vrijedi 


zi = c| ge E ieidi _ c| = E < ča! + 2|z; s c| = 


ef — ml + lea _iga — ml + 212i — el. 


Za C< ZT; < m vrijedi 
le;—e|+le,-nr-e= o la; — ml + l2p_ia1 — ml. 
Stoga za c < m vrijedi 


Kb ž Z n 
! , / / / 
) Iz vel = ) lr; — £,-i+H11 +2 ) Iz. =] 2 ) |zi — ml. 
Emil i=1 11 ie) 
Slično se analizira i slučaj e > m, a također i slučaj neparnoga n. U svakom se 
slučaju dobiva 
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n a 
(9) Der el> 9 le! - mj, 
imi i=1 


pri čemu znak jednakosti vrijedi kada je c € [2,241], za parno n, odnosno 


CE MET, Za neparno n. 


Budući da konačna suma ne ovisi o redoslijedu svojih članova, (9) se može 
pisati 1 kao 


čime je dokazana izrečena tvrdnja o svojstvu medijana. 


3. Varijanca 


Parametrima lokacije očigledno nije obuhvaćen jedan vrlo značajan i važan 
aspekt danog Niza Z1,...,Z, statističkih podataka, a to je njihovo rasipanje ili 
raspršenje. Da bi se lakše shvatio smisao i potreba definiranja parametra koji će 
pokazivati raspršenje danog niza podataka, dobro je uočiti dva vrlo tipična slučaja. 
Zamislimo da su mjerenjem veličine X dobiveni ovi rezultati: 


(x) tqi=lm2=2m=3m=4,z5=35, 

a mjerenjem veličine Y ovi rezultati: 

(y) | E=MN=uB=Nu=y5=3. 

Oba niza (x) i (y) imaju jednake prosjeke (T= =3),a takođeri jednake medijane 
(Me = my = 3). Odmah se, međutim, vidi da u nizu (y) uopće nema raspršenja 


podataka, već su svi podaci koncentrirani u jednoj točki, dok je u nizu (x) znatno 
raspršenje podataka. 


5 5 9 
U 

4 4 | 
I 

3 3 
2 2 
j ————— 1 
s a a 

do «2 “2 4 “5 ll 2.3. 4_ 5 

a) b) 


Slika 15. Poligoni frekvencija za nizove (x) i (y) 


dem 
skoki: 


o grani) ra 


. pne ga poe jr o 
o 
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Stoga se prirodno nameće ideja da se definira jedan parametar ili više njih, koji 
će "mjeriti? rasipanje podataka. Iako će se kasnije definirati 1 neki drugi parametri 
koji pokazuju rasipanje podataka, najprije će se definirati i razmotriti svojstva 
najvažnijeg parametra rasipanja koji se zove varijanca ili disperzija danog niza 
statističkih podataka. 


Varijanca se označuje sa sž i definira formulom 


(11) zli =Z)!+..4 (2, ZPI= 3 (m: - 2)! 
i=1 


Iz formule (11) odmah se vidi da je sg zbroj kvadrata odstupanja pojedinih 
podataka od prosjeka Z podijeljen s brojem n svih podataka, pa se može reći i daje 
sj aritmetička sredina kvadrata odstupanja od prosjeka u danom nizu statističkih 
podataka. Također se govori da je sž prosječno kvadratno odstupanje od prosjeka. 


Nenegativna veličina sg = \/sš zove se standardno odstupanje ili standard- 


na devijacija danog niza podataka. 


Očigledno je sž > 0, pri čemu može biti sj = 0 onda i samo onda ako je 
T1E...=q<, =T,t). kadasvi podaci padaju u istu točku. Takvu situaciju imamo 
u nizu (y), što se zorno vidi na sl. 15b, pa se može reći da je varijanca podataka 
niza (y) jednaka nuli. Za podake niza (x) (sl. 15a) dobiva se 


= (1-3)54+(2-3)4+(8-3)+(4-3)+(5-3)]=2. 


odnosno 
so=v2a 141. 
Ako su podaci o diskretnome statističkom obilježju već sređeni u obliku tablice 
frekvencija (tabl. 1. u I. 1), onda se definicijska formula za varijancu može zapisati 
i kao 


(12) s = 3 (aj —2)fi = >_(0; — €)*p;. 
j=1 j=1 
Valjanost formule (12) izlazi iz samog pojma frekvencije f;, odnosno relativne 
frekvencije pj, vrijednosti a; € A (A je skup mogućih vrijednosti promatranoga 
diskretnog statističkog obilježja). 
Za podatke iz 1. primjera u I. 1, sređene u tabl. 2. iz I. 1, primjenom formule 
(12) dobiva se 


l 
S0 = zalll— 2,7) :3+(2— 2,7)! :11+(3—2,7)%:10+ 
+(4-—2,7)% .4+(5—2,7)* .2] = 
1 ll 1 
= (= Mi = === 
( 7) Tie. 7) Ta ) st 
l 1 
NA TV 0) e gs 1:08 
+ Nk rje e IV 
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odnosno 
So = V1,08 2 1,04. 
Za podatke iz 3. primjera u 1.2. imamon=200,r=20iz= 9,97, tako da se 
primjenom (12) dobiva 
1 
5) = za - 9,97) :1+(4— 9,97)? .2+...+(22— 9,97)? .2] = 9,64, 
sq = 9,64 A 3,10. 


Ako je riječ o podacima sređenim u tablicu frekvencija, pri čemu su podaci 
grupirani u razrede (tabl. 6. u I. 5), onda se definira veličina 


a_le,_ : 
(13) G= 28-72); =) (q; -£)p,, 


j= zi 


koja se zove varijanca grupiranih podataka. Veličina 52 općenito neće biti jednaka 
varijanci sg definiranoj formulom (11), jer ona zapravo pokazuje rasipanje sredina 
razreda, "opterećenih" pripadnim frekvencijama, oko prosjeka Z. Veličine 52 1 52 
redovito se malo razlikuju, tako da se u praksi katkada s3 zamjenjuje sa 53. 

Ako se u formuli (11) izvrši naznačeno kvadriranje, dobiva se 


n 


1 m _ 1 n n 
SQ ci AL: = 2aiT +2") mo as bol s IE? i) ' 
iči 


i=1 isl 


n 
Budući da je 27 zi; = nz, konačno se dobiva formula 
iz1 


Za numeričko računanje varijance često je formula (14) prikladnija od for- 
mule (11). Formula (14) kazuje da je varijanca jednaka razlici aritmetičke sredine 
kvadrata i kvadrata aritmetičke sredine (prosjeka) danih podataka. 

Definiciju varijance kao određene mjere rasipanja danog niza statističkih po- 
dataka opravdat će 1 svojstvo varijance koje ćemo sada razmotriti. Najprije valja 
uočiti da nije moguće dobiti mjeru rasipanja ako se promatra zbroj odstupanja (bez 
kvadrata) od prosjeka. Prosjek Z je, naime, upravo tako definiran da se pozitivna 
i negativna odstupanja međusobno ponište, što je izraženo relacijom (2). Kvadrati 
u formuli (11) imaju upravo tu ulogu da dođu do izražaja # pozitivna i negativna 
odstupanja te da veća odstupanja (veća od jedan) više utječu na vrijednost vari- 
jance. 

Uzme li se proizvoljan realan broj c, tada iz (3) proizlazi 
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zida E ; Ef ' ' ' ' 
Iz (15) se vidi da vrijednost izraza — 9. (zg; — c)*, tj. aritmetička sredina 
Ni=i 
kvadrata odstupanja danih podataka od broja c, ovisi o broju c tako da poprima 
minimalnu vrijednost za c = Z i tada je njegova vrijednost upravo varijanca sž. Po- 
jednostavnjeno se može reći da je rasipanje podataka, mjereno kvadratnim odstupa- 
njima, minimalno ako se uzimaju odstupanja od prosjeka tih podataka. Kvadratna 


odstupanja podataka od bilo kojeg drugog broja c # F veća su od varijance s7. 


4. Standardna i apsolutna devijacija 


Značenje standardne devijacije sg, kao određenog parametra rasipanja, može 
se vidjeti iz sljedećeg rezoniranja. Iz formule (11) proizlazi da je 


n 


nsj=)(m-2= 3 (m-Z)"+ > (zi—E)*+ 2 (m—7). 


iz1 ' rTi<T-kso T>-kso<ri<T+Hkso ri>T+kso 


Tu je zbroj po 2-ovima od 1 do n razbijen na tri nenegativna pribrojnika. U prvom 
se zbraja po onim 2-ovima za koje je 2; < £ — ksg, gdje je k > 0 proizvoljan broj, 
u drugom po onim i-ovima za koje je T — kso < 2; < T + ksg 1 u trećem po onima 
za koje je zi > T + kS9. Stoga se može pisati 


nsd > i. (z; — 2)? + > (r;— 2)? = > (z; — £)?. 


Ti<T-kso ri>T+kso lzi—TI>kso 


Ako se sada u prvi zbroj umjesto z; stavi ZF — ksg, a u drugi se umjesto z; stavi 
Z + kso, njihova će se vrijednost smanjiti, tj. vrijedi 


s (xy — 2) > > k*s3 + ». k*sj = > ks. 


lr;—FI>kso Ti<E-kso Ti>T+kso Iri>TI>kso 


Ako u danom nizu podataka z,,...,Zn ima njih (1 < n) za koje vrijedi 
Iz; — ZI > ksg, onda se može pisati 


pa ako je Jjoš sg > 0, dobiva se 
1 

a ' l E bosa Ka 
Specijalno za k = 3, dobiva se da je ( < —n, a to znači da se najviše — ili oko 11% 
svih n podataka nalazi izvan intervala [Tr — 359, ZT + 359], odnosno da se bar 89% 
svih podataka nalazi unutar intervala širine 6sg sa središtem u T. 

Prema tome, poznavanje samo dvaju parametara Z i sg danog niza statističkih 
podataka omogućuje nam već vrlo dobar uvid u položaj i rasipanje danih podataka. 


Tako, na primjer, za k = 2 relacija (16) pokazuje da je l < 1 što znači da se 


wr 
kae 


—m 
ži 
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unutar intervala [Z — 259,2 + 2590] nalazi bar 75 % ukupnog broja podataka danog 
NIZA Z1,...) Zn. 


89 % ili više 


15 % ili više 


T-389 T— 284 T-so! z T+so T+2š590 F+3s9 


Slika 16. Skica razdiobe podataka na brojevnoj osi 


Rasipanje podataka može se kvantitavno opisati i pomoću apsolutnih vrijed- 
nosti odstupanja od medijana m. Iz (10), naime, proizlazi da je 


| Eek bei 
17 — i > > — i — 
(17) iZ ed> >> lz:— mi, 


i=1 


što pokazuje da aritmetička sredina apsolutnih vrijednosti odstupanja podataka 
od medijana m nije veća od aritmetičke sredine apsolutnih vrijednosti odstupanja 
podataka od bilo kojega drugog realnog broja c. Stoga se veličina 


us: 
(18) a=—YXIm—m 


također može uzeti kao određena mjera rasipanja danog niza statističkih podataka. 
Veličina a zove se apsolutna devijacija oko medijana. 

Ako se radi s frekvencijama, odnosno relativnim frekvencijama, onda formula 
(18) postaje 


1 a 
(19) u 2 la; — mlfj = 2 la; — mlpj. 
ij= | 


= 
Očigledno je a zA 0 i znak jednakosti vrijedi onda i samo onda ako vrijedi 
li=.= 4, =m,t).1 ova mjera rasipanja poprima vrijednost nula za podatke 


koji padaju u istu točku. | 
a. U JE 2. izračunan je medijan m = 1,5 za podatke iz 1. primjera u I. 1, pa se 
vidi da je za te podatke apsolutna devijacija oko medijana | 


1 i | 
a= 55111318 + 12— 3111+18 — 3110+ [4 — 314 + [5 — 312] = 2 a 0,83. 


sH| g 


Usporedi li se dobivena vrijednost apsolutne devijacije oko medijana sa standard- 
nom devijacijom istih podataka izračunanom u prethodnom poglavlju (so 2 1,04) 


vidi se da je u ovom primjeru a < so. Istaknuli smo već i slučaj kada je a = sg, a 
može biti 1 a > sg. 
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5. Raspon i interkvartilni raspon 


Ako su podaci poredani po veličini, tj. 24 <... < £, (n > 2) onda se kao 
određeni pokazatelj rasipanja može uzeti razlika d između najveće z!, i najmanje 
zi vrijednosti u danom nizu statističkih podataka. Piše se 


(20) d=max(zi,...,Fn) — min(zi,... Zn) ES Ta >< 


i veličina d zove se raspon niza zi,..., Zn statističkih podataka. 

Očigledno je d > 0 i znak jednakosti vrijedi onda i samo onda ako je 
L1ZE... = <n. 

Za podatke iz 1. primjera u 1. 1. vidi se da je zi = 11i 24% = 5, tako da je 
d=4. | 

Pogledaju li se podaci u 5. primjeru iz 1. 4. vidi se da je zi = zga4 = 25,131 
Z400 E T7 = 47,12, tako da je odgovarajući raspon d = 2400 — Zi = 21,98. 

Glavni nedostatak raspona kao određene mjere rasipanja podataka sastoji se u 
tome što raspon ovisi samo o ekstremnim vrijednostima u danom nizu statističkih 
podataka, dok središnja skupina podataka ne utječe na veličinu raspona. To znači 
da vrlo različiti nizovi podataka mogu imati istu vrijednost raspona. 

Tako, na primjer, već navedeni raspon d = 21,98 ima niz od n = 100 podataka 
iz 5. primjera u I. 4, ali isto tako i niz od samo dva podatka yy = zi = 25,13 i 
V2 = Zioo E 47,12. Usporede li se, recimo, njihove standardne devijacije vidi se da 
je standardna devijacija podataka iz 5. primjera u I. 4. sg = 4,63, dok za niz od 
samo dva ekstremna podatka y1 i yz standardna devijacija iznosi sg = 11. 

Da bi se donekle uklonili navedeni nedostaci raspona kao pokazatelja rasipanja 
a zadržala njegova dobra svojstva, definira se tzv. interkvartilni raspon. Grub: 
rečeno, interkvartilni raspon je raspon niza koji se dobije od zadanog niza podatak: 
kada se odbaci četvrtina najmanjih i četvrtina najvećih vrijednosti iz danog niz: 
statističkih podataka. Ako je, dakle, n (n > 4) djeljiv sa 4 i vrijedi 


/ / / / / / 
TL. ETA E Tag E Tap E Tangjg < E 


onda se veličina 
mne ! 
(21) do = za, — Tai 
zove interkvartilni raspon danog niza statističkih podataka. 

Ža podatke iz 1. primjera u I. 1. interkvartilni raspon odredio bi se tako : 
se, zbog n = 30, što nije djeljivo sa 4, iz niza izbace bilo koja dva podatka, recir 
T29 = 01230 = 2, pa se preostali niz uredi po veličini. Dobiva se niz u kojem 
n = 28, što je djeljivo sa 4 i Ta = #82, Tan = 22, = 3, tako da je pripad 


interkvartilni raspon do = 1. 


ji Parametri niza statističkih podataka 11.6 i moo oPammeioMlila SOM 
6. Parametri oblika Kao drugi parametar oblika definira se koeficijent spljoštenosti E, i to for- 
i mulom . 
. , L . i | : 
Gada se, prirodno, nameće ideja da se definiraju još neki parametri koji će (28) sE šo a 


karakterizirati l druga svojstva niza statističkih podataka z;,...,€n. Općenito se 
definiraju tzv. statistički momenti, tako da se stavi 


(22) ba = — Lj, a) 0 ene 


Zove se centralniili glavni moment k-tog reda danog niza statističkih podataka. 


mrene pre A o 


Ako je E = 0, onda se govori o tzv. normalnoj spljoštenosti grafikona frekvencija 
danog niza podataka, aako je E #0, onda se E interpretira kao odstupanje (eksces) 
od normalnosti. Dakako, eksces može biti pozitivan i negativan. 

Ako su podaci sređeni u tablici frekvencija, onda se za proračun statističkih 
momenata, umjesto formula (22) i (23), mogu primijeniti formule 


. .e . . . / . i : “ 

Parametar b, zove se ishodišntili pomoćni moment k-tog reda, a parametar ž 29) Dia Z | fi = Dj 

u (do e AN 
n f jel j=l 
m. zik i | 
(23) me=—> (gg=>zV, a (M MRA 1 PE: r 
i=1 : 2): s) 

(30) mE ) (aj > 2) fi = ) (aj — pj. 
: j=1 gad 


Očigledno jebo=Mmo=1bi=Zm=0im = 82. 
Iz (22) i (23) proizlazi da je 


(25) ma = ba — bibo + 202, 
(26) ma = ba — 4babi + 6b2bi — 301, 


idi $ sla : 6.08 . 
pa se vidi da formule (24), (25) i (26) omogućuju da se centralni momenti mo, 
m3 i ma izraze pomoću ishodišnih momenata, koji su definirani jednostavnijim 
formulama. 


zove koeficijent asimetrije danog niza statističkih podataka. Za simetrično 


Za podatke iz 1. primjera u 1. 1. proračun koeficijenta asimetrije X 1 koeficijenta 
spljoštenosti E može se provesti na sljedeći način: 


a 


Primjena osobnog računala 1 odgovarajućeg programskog paketa omogućuje 
da se za dani niz statističkih podataka "pritiskom na gumb" dobiju vrijednosti 
najvažnijih parametara, kao što su prosjek, medijan, varijanca, standardna devi- 
jacija, apsolutna devijacija, minimalna vrijednost, maksimalna vrijednost, raspon, 


interkvartilni raspon, koeficijent asimetrije 1 koeficijent spljoštenosti. 


raspoređene podatke oko prosjeka FZ je K = 0. Akoje K < 0 govori se o nega- 
tivnoj, a ako Je A a 0 o pozitivnoj asimetriji danog niza statističkih podataka. 
Budući da se simetričnost ili asimetričnost podataka zorno očituje u obliku pri- 


padnog poligona, odnosno histograma, frekvencija, parametar K pripada u tzv 
parametre oblika. 


Uloga centralnog momenta trećeg reda m3 može se nazreti iz ovog rezoni- | bi = 1 
ranja. Ako su podaci L1,...>2n raspoređeni simetrično oko točke Z, onda svakoj i 30 
vrijednosti z; odgovara simetrična vrijednost z,, tako daje gj > T= —(#,/—Z)i b 1 
i = —. 
5 EI =\3 zen | Koe Si ' n | 2— 
(zi ug =e(r;= T)*, što ima za posljedicu da je ma = I 9 (zg; _£)* — 0. Akoje Z . 2 
2 a Ni=1 i ba = sq 867 m 28,9, ma = ba — 3bibo +207 = 0,47, K = — S042, 
ma > 0, onda to znači da je X2 (g; — £)* > 0, tj. podaci su "razvučeniji" desno od i *0 
ane .oi=1 : . | 
z, odnosno zbijeniji su lijevo od Z, aako je ma < 0, onda su podaci "razvučeniji“ bs E Ia 3263 a 108,77, mu = ba — 4b3bi + Gbobž — 3bi € 3,32, 
lijevo od Z, a "zbijeniji" desno od Z. i ma 
Uobičajeno je da se parametar X definiran formulom i Bb = pz ska 3 = —0,10. 
m 
Primjedba 
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| 3 III. Statistički podaci o 
Zadaci dvodimenzionalnom obilježju 


1. Za svaki niz statističkih podataka naveden u zadaci : 
Poke : cima 1-14. ' 
izračunajte: 4. u 1. poglavlju 


a) prosjek, 
b) medijan, 
c) varijancu, 


| d) standardnu devijaciju, 
e) apsolutnu devijaciju, . .. . 
| £) rasno 1. Kontingencijska tablica 
ik : 
i £) interkvartilni raspon, e . ' 
: i okeelen se mie? : Da bi se neka pojava proučila, često nije dovoljno promatrati samo jednu 
i) koeficii i. EI . veličinu, već je nužno simultano promatrati više veličina 1 ustanoviti eventu- 
i) koeficijent spljoštenosti. alnu ovisnost među tim veličinama. Budući da se neke opće ideje za simul- 
2. Neka je zi Zn niz statističkih po ded A tano proučavanje više statističkih obilježja mogu uočiti već pri promatranju dvaju 
ik rog podataka 2 : Pajić pata S ' KRAK ja 
Pp s prosjekom Z i varijancom 52, obilježja, detaljnije ćemo razmotriti probleme u vezi s tretiranjem statističkih po- 


AZf£0iB zadani realni brojevi, ta yi = Az; + B,t=1,...,n. Dokažite da 


NIZU M1,...,Vn pripada prosjek # = A+ B i varijanca s2 A2 dataka o dva statistička obilježja X 1 Y koja se simultano promatraju. To znači da 
i 


se višestrukim ponavljanjem mjerenja, odnosno opažanja dotične pojave, dobiva niz 


3. Svaki niz statistički! ' ; + ' 
u=z2+8B Pais Beda Clattgif MOZE Be transformacijom oblika uređenih parova realnih brojeva (Z1,91),(22,92),-..)(Zn,Yn)- Govori se još da se 
EE ' a 1, gao Jn prosjeka nula. Dokažite! promatra dvodimenzionalno statističko obilježje (X, Y) i da je dobiveni niz uređenih 
; emelju nj mjerenja z4,...,2,, statističkog obilježja .X dobiven je prosjek parova realnih brojeva odgovarajući niz statističkih podataka za dvodimenzionalno 


Zi, 1 varijanca sž. an ino ' : ' dve haa 
J 1 a temelju novih n2 mjerenja 2/,...,z4. dobiven je | statističko obilježje (.X, Y). 


Prosjek Z2 i varijan S ji = 
J 2 Janca s2. Ako se svih ny+no =n mjerenja shvate kao jedan 


NIZ statističkih podataka, onda se dobiva lek zi i 2 s: 
da vrijedi: | prosjek Z i varijanca s. Dokažite 


1. primjer 


aaa 


ir 1 | i . . . . 

a) = —(Niži +n2F2 U jednom razredu od n = 30 učenika promatra se ocjena iz matematike (X) 1 
n ' j me a še , 

ocjena iz fizike (Y), kao dvodimenzionalno statističko obilježje (X,Y). Uvidom u 


1 ): +1.) . . . ., 
b) 82 = — (ls? + (fi 2)2]+ PRE (£2—£)2]). imenik" dobiveni su ovi rezultati: 


3. Dokažite da za podatke o diskretnom obilježj li (1,3), (4,3), (2,2), (3,2), (1,2), (1,1), (2,2), (4,4), (2,2), (3,3), (4,4), (5,5), (3,5) 
( u k . ad. ) ) ) ) ) ) ) ) ) ) , ) ) ) ) ) ) ) ) ) ) , ) ) ) ) 
s (ai, e a, ) vrijedi formula i Vjeenomi Liz EPI Sea koku (3,3), (2,2), (22) (3,3), (3,2), (4,4), (2,2), (3,3), (20, 
Bee 
5 = mi aj fj —_ z. Vidi se da je prvi učenik imao ocjenu zj = 1 1z matematike 1 ocjenu y1 = 3 1z 
j=1 fizike, drugi učenik je imao ocjenu z2 = 4 iz matematike 1 ocjenu y2 = 3 iz fizike 
itd. 


6. Dokažite da je standardna devijacija ni a 
raka jacija niza od d : 
polovini pripadnog raspona. : od dva različita podatka jednaka 


7. Izvedite formule (24), (25) i (26). 


Iz danog niza statističkih podataka (uređenih parova) vidljivo je da se određeni 
uređeni parovi pojavljuju u tom nizu i više puta. Tako se, na primjer, uočava da 
se uređeni par (2,2) pojavljuje 8 puta, uređeni par (3,2) pojavljuje se 5 puta itd. 
Govori se još da uređenom paru (2,2) pripada frekvencija 8, odnosno relativna 


: frekvencija a as 0,27. 

Da bi se dobio jasniji i pregledniji uvid u dani niz statističkih podataka o 
promatranome dvodimenzionalnom obilježju (X, Y), prikladno je načiniti tablicu 
frekvencija (tabl. 1) i tablicu relativnih frekvencija (tabl. 2) za dane podatke. 

Na gornjoj margini tabl. 1.1 2. upisane su vrijednosti obilježja Y', a na lijevoj 
margini vrijednosti obilježja X. U oba slučaja to su brojevi 1, 2,3, 415, tj. moguće 
ocjene iz fizike, odnosno matematike. U nutarnja polja tabl. 1. upisane su odgo- 


4 ae ' 
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Tablica 1. 


varajuće f E : 

dose Peka a u nutarnja polja tabl. 2. odgovarajuće relativne frekvencije 
Khjedne: i ob iz danog niza statističkih podataka. Na donjoj margini upisane su 
in Hol (relativnih frekvencija) dotičnog stupca, a na desnoj 
donjekrajnic ida dii po (relativnih frekvencija) dotičnog retka. U 

Šuja O s 2 . . . : 
divnih Pi RI polje talice upisana je vrijednost zbroja svih frekvencija (rela- 

Ako j eni pe . 
obilježje . gkiona riječ o dva diskretna statistička obilježja X i X, pri čemu 
rab dna vrijednosti iz diskretnog skupa A, a obilježje Y iz diskretnog 
obilježja do ei prilikom simultanog promatranja (mjerenja, opažanja) tih 
Ai B). To eu dobivaju elementi skupa A x B (Kartezijev produkt skupova 
ekvencji fa : a se za svaki uređeni par (a,b) € A x B može govoriti o njegovoj 
nalnome Mead Ro podataka (z1,91),...,(Zn,Un) o dvodimenzio 
čkom obilježju (X Mik tea 2 
sd f(a,b) ježju (X,Y). Također se govori i o relativnoj frekvenciji 
: z uređenog para (a,b) u danom nizu statističkih podataka 
rem ' poi moa ' 
= i niz statističkih podataka (z;,V1),...,(Zn,Vn) O diskret- 
frekvencija koja ZL NOM obilježju (X,Y) može se formirati pripadna tablica 
Ja se obično zove kontingencijska tablica (tabl. 3). 
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Tablica 3. 


Brojevi a1,...,dr elementi su skupa A, a brojevi bi,...,bs elementi su skupa 
B i u tabl. 3. obično su poredani po veličini tako daje da <a2 <... < a 1 


bcb<...<b. 
Uređenom paru (aj, bx) pripada frekvencija 


(1) fjk = f(a;,bk), i=1l./r kz. 14058, 


odnosno relativna frekvencija 


(2) Djk = p(aj,bk) = fi 


Očigledno je fjk cijeli broj i vrijedi 


(3) 0<fa<n XXfa=n 


j=ik=1 


(4) 0O<pa<i, Xpa=1 


jsik=1 


Nadalje je 
(5) fi=9l.fin i=lheom 
k=1 
(6) g= Vl fik ke 1,45045; 
j=!| 
a definira se 1 
: 1 


(7) pz Bu= fi i=1,./)T 


we see 
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: 1 
= nE KEL .Lo8 
(8) dk Pit 9, , 


U 1. primjeru očigledno je A = B = ([1,2,3,4,5), tako daje a1 = bi =1, 
a=b=2da=b=83,d=b=4ias = bs = 5. Iz tabl. 1. vidi se, na 
primjer, da je fs2 = 5, dok je fa = 10, a g2 = 14. Iz tabl. 2. se, pak, vidi da je 


P32 E 50 a 0,67, pa = 50 s 0,83 1q2 + 50 s 0,47. Veličina f32 = 5 označuje da 


u promatranom razredu ima 5 učenika koji imaju ocjenu 3 (dobar) iz matematike 
i ocjenu 2 (dovoljan) iz fizike. Veličina fa = 10 pokazuje da u tom razredu ima 10 
učenika koji imaju ocjenu dobar (3) iz matematike, a veličina gz = 14 da u tom 
razredu ima 14 učenika s ocjenom dovoljan (2) iz fizike. 

Općenito se može reći da broj fj, definiran u (5), označuje frekvenciju vri- 
jednosti a; u nizu z1,...,Zn, dok broj ge, definiran u (6), označuje frekvenciju 
vrijednosti bx u nizu y1,...,Vn. Iz (7) i (8) se odmah razabire da su pj 1 qx odgo- 
varajuće relativne frekvencije. 


2. Dvodimenzionalna razdioba frekvencija 


Tablicom 3, ili tablicom u kojoj bi umjesto frekvencija f;x stajale relativne 
frekvencije pjk, definirana je tzv. dvodimenzionalna razdioba frekvencija, 
odnosno relativnih frekvencija, za dani niz statističkih podataka (z1,V1), ..., 
(Zn, Yn). Formulom (1) definirana je pripadna funkcija frekvencija, a formulom 
(2) pripadna funkcija relativnih frekvencija. Ovdje su to funkcije dviju varijabli, za 
razliku od onih u I. 2. 

Odmah se uočava da se u vezi sa zadanom dvodimenzionalnom razdiobom 
frekvencija mogu promatrati i dvije obične (jednodimenzionalne) razdiobe frekven- 
cija definirane formulama (5) i (6), odnosno (7) i (8). Formulama (5) i (7) određena 
je razdioba frekvencija i relativnih frekvencija za podatke o statističkom obilježju 
X, a formulama (6) i (8) za podatke o statističkom obilježju Y. 

Prema tome, na marginama tabl. 3. mogu se promatrati dvije Jjednodimen- 
zionalne razdiobe frekvencija, i to posebno za podatke o obilježju X i posebno za 
podatke o obilježju Y. Stoga se i govori o marginalnim razdiobama frekvencija za 
podatke o obilježjima .X 1 Y, koje proizlaze iz zadane dvodimenzionalne razdiobe 
frekvencija za podatke o dvodimenzionalnome statističkom obilježju (X, Y). 

Ako se, po analogiji s jednodimenzionalnim slučajem, žele geometrijski in- 
terpretirati statistički podaci o dvodimenzionalnome statističkom obilježju, onda 
se treba poslužiti prostornim (trodimenzionalnim) pravokutnim koordinatnim sus- 
tavom. Na apscisnu os postave se vrijednosti obilježja X, na ordinatnu os vri- 
jednosti obilježja Y, a kao pripadne aplikate uzmu se odgovarajuće frekvencije, 
odnosno relativne frekvencije. 

Podacima iz tabl. 1. odgovara sl. 17. Na sl. 17. zorno je prikazana dvodimen- 
zionalna razdioba frekvencija za statističke podatke pri simultanom promatranju 
učeničkih ocjena iz matematike (obilježje .X) i fizike (obilježje Y). 

Slici 17. može se dati i mehanička interpretacija. Ako se, naime, brojčane 
vrijednosti frekvencija interpretiraju kao mase odgovarajućih točaka u ravnini x-y, 
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Slika 17. Prikaz podataka iz tabl. 1. 


onda se može govoriti o određenoj ravninskoj razdiobi mase ukupne količine n. Ako 
su posrijedi relativne frekvencije, onda imamo ravninsku razdiobu mase ukupne 
količine 1. Time je uspostavljena određena analogija između dvodimenzionalne 
razdiobe frekvencija i ravninske razdiobe mase, što će omogućiti da se i drugim 
statističkim pojmovima u vezi s dvodimenzionalnim razdiobama daju mehaničke 
interpretacije. 


3. Funkcije regresije 


Kao što je već rečeno, glavni je zadatak pri sređivanju i obradi statističkih 
podataka da se otkriju određena svojstva 1 eventualne zakonitosti promatranih ve- 
ličina X 1 Y. Odmah se uočava da se statistički podaci z1,...,Tn o obilježju X 
mogu zasebno obrađivati svim onim metodama koje su opisane u I. ill. poglavlju, 
a isto tako se može reći iza podatke yi, ..., Un O statističkom obilježju Y. To znači 
da se mogu definirati parametri 


(10) v= X lu= lua = ha, 
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(11) a X e: —_z)" = SAO _£)"f; = 


ll 
s 

a 
Q. 

| 

s 
bh 
S 


= 
1 n .. 1 S 
(12) u 2 = —2lbx —7) 9 = 
iz k=1 
SBDUETIET 
kSl 


Točka (Z,4) može se mehanički interpretirati kao težište odgovarajuće ravninske 
razdiobe mase, što onda opravdava i naziv središte dvodimenzionalne razdiobe fre- 
kvencija za točku (Z,Y) u ravnini x-y danoga koordinatnog sustava. 

Za statističke podatke iz 1. primjera dobiva se 


Govori se da je prosječna ocjena učenika promatranog razreda iz matematike 2,70 


uz standardnu devijaciju 1,04, dok je prosječna ocjena iz fizike 2,63 uz standardnu 


devijaciju 1,11. No pogled na tabl. 1. i 2. sugerira da je u njima sadržana | 
određena informacija o zavisnosti između veličina X 1 Y, a ne samo informacija 
o zasebnim svojstvima obilježja X i obilježja Y. Zato se i postavlja zadatak da 
se, uz pomoć danih statističkih podataka dobivenih pri simultanom promatranju 
(mjerenju) obilježja X 1 Y, istraži priroda međusobne ovisnosti veličina X i Y. To 
će se učiniti tako da se definiraju određeni parametri koji će kvantitativno izraziti 
tu ovisnost, te da se ona na određeni način geometrijski interpretira. 

Svaki nutarnji redak i svaki nutarnji stupac, tablica 1, 2. 1 3. može se shvatiti 
tako kao da je njime definirana određena jednodimenzionalna razdioba frekvencija. 
Tako, na primjer, izdvoji li se treći redak tabl. 1, dobiva se razdioba frekvencija 
prikazana u tabl. 4. 


Tablica 4. 
Vrijednost 
obilježja Y 


Tablica 4. pokazuje da od 10 učenika koji imaju ocjenu 3 iz matematike, ocjenu 
1 iz fizike nema nitko, ocjenu 2 ima 5 učenika, ocjenu 3 ima 4 učenika i ocjenu 5 
ima jedan učenik. Prosječna ocjena iz fizike za tih 10 učenika iznosi 


y(3) = —(1+0+2:5+3:4+4.:0+5:1)=2. 


mi 
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Na sličan način dobiva se 


1 
() = 2(1:1+2-1+3-1)=2, 


1 21 
jE (Lp. 1N=e= a T01 
y(2) ji + +3-:1) = T 91, 


gd) = 1(38:1+4-3)=3,75, 
Cos. od _ 
95) = 5:5-2=5. 


Sada se mogu na apscisnu os pravokutnoga koordinatnog sustava u ravnini nanijeti! 
vrijednosti obilježja X, tj. ocjene iz matematike, a kao pripadne ordinate uzeti 
odgovarajuće prosječne ocjene iz fizike, što je prikazano na sl. 18. 
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Slika 18. Krivulje regresije za podatke iz 
tabl. 1. 


Izlomljena puna crta na sl. 18. pokazuje kako se mijenja prosječna ocjena iz 
fizike u ovisnosti o ocjeni iz matematike. 

Posve je razumljivo da X i Y mogu zamijeniti uloge, tj. da se svaki nutarnji 
stupac tabl. 1. tretira kao određena jednodimenzionalna razdioba frekvencija, koja 
pokazuje razdiobu ocjena iz matematike onih učenika koji imaju uočenu ocjenu iz 
fizike. Tako se iz tabl. 1. vidi da za 3 učenika koji imaju ocjenu 1 iz fizike, prosječna 
ocjena iz matematike iznosi 


Qo | < 


1 
z(l) = 5(1:14+2-2) = a 1,67. 


Nadalje je 
_ 32 
t(2) =: E 1+2:8+3 -:5) = me 


L 19 
2(3)= 2(1:1+2-:1+3 4+4-1)= 7 =271, 
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Na sl. 18. ucrtana je i izlomljena crta prikazana točkicama koja pokazuje kako 
se mijenja prosječna ocjena iz matematike u ovisnosti o ocjeni iz fizike. 

Izlomljene crte na sl. 18. zovu se krivulje regresije za dani niz statističkih 
podataka o dvodimenzionalnom obilježju (X, Y) i one, na određeni način, pokazuju 
međusobnu zavisnost između ocjena iz matematike i ocjena iz fizike kod učenika 
promatranog razreda. 

Općenito, polazeći od kontingencijske tablice (tabl. 3) za dani niz statističkih 
podataka o dvodimenzionalnom obilježju (X, Y), mogu se promatrati dvije famili- 
je jednodimenzionalnih razdioba frekvencija. Promatrajući nutarnje retke tabl. 3. 
uočava se r jednodimenzionalnih razdioba frekvencija, pri čemu j-ti redak određuje 
tzv. uvjetnu razdiobu frekvencija onih podataka o obilježju Y kod kojih obilježje 
X ima vrijednost aj (j = 1,...,r). Vidi se da takvih podataka ukupno ima fj. 
U toj razdiobi pripadni prosjek nazvat će se uvjetni prosjek i označiti sa (aj), te 
računati pomoću formule 


(13) y(aj) = PS dala ij=1,. 


fj k=1 


Promatrajući, pak nutarnje stupce tabl, 3, uočava se s jednodimenzionalnih raz- 
dioba frekvencija, pri čemu k-ti (k = 1,...,s) redak određuje uvjetnu razdiobu 
frekvencija onih podataka o obilježju X, ukupno ih ima gx, kod kojih obilježje Y 
ima vrijednost bx. U to razdiobi uvjetni prosjek označuje se sa Z(byx) i računa 
pomoću formule 
(14) zi) = — %ajfj, i MOR 

9% 

Formulama (13) i (14) definirane su funkcije a; > #(4j) i bx > T(bx) koje 
se zovu funkcije regresije danog niza statističkih podataka o dvodimenzionalnom 
obilježju (X,Y). Funkcija aj > #(4;), j = 1,...,r, pokazuje ovisnost prosjeka 
uvjetne razdiobe frekvencija u j-tom retku tabl, 3 o vrijednosti aj obilježja X, 
a funkcija by > Z(b,), k = 1,...,5s, pokazuje ovisnost prosjeka uvjetne idzdlebe 
frekvencija u k-tom stupcu tabl. 3. o vrijednosti bx obilježja Y. Grafički prikaz 
tih funkcija u pravokutnome koordinatnom sustavu redovito će imati oblik dviju 
izlomljenih crta (sl. 19). 
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bx 


b2 


bi 


dj a2 ... aj ... dr 


Slika 19. Krivulje regresije i pravci regresije 


4. Pravci regresije 


Prirodno se nameće ideja da se izlomljene crte, koje zorno prikazuju funkcije 
regresije, zamjene pravcima (sl. 19). Parametri A i B, odnosno C i D, odredit će 
se metodom najmanjih kvadrata s odgovarajućim težinskim faktorima. To znači da 
parametre A 1 B treba odrediti tako da zbroj 


(15) S=9)7% [44j +B —bx]čfja 


jslk=i 


bude minimalan. 'To će se postići rješavanjem sustava jednadžbi 


Nakon provedenoga parcijalnog deriviranja i sređivanja dobiva se sustav 


AD Dalja +BX_.>_ufja= >A ajba fjk 


(16) ni k=1 jelk=li jzlt=i 
AS_9%_ajfjk + BRDO = 99 Bafia: 
_=lkzi je=lksl jelkal 


Imajući na umu formule (3), (5), (6), (9), (10) 1 (11) lako se uočava da je 
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(17) | a =n, 


j=lk=i 
di Def ="z, 
jselk=i 
(19) DA dafa = 17, 
jelk=l 
(20) DA AŠ fja = n(s2 + 22). 
je=lk=i 
Uvede li se još oznaka 
1 r 8 _ 5 1 r S 
(21) Sry = DUDU — Tb — fj = — Doda ideju — Ty, 
jslk=1 j=ilk=1 
odmah se vidi da je 
(22) Mu 2 djbx fjk = n(Sry + LU) 
j=lk=1 


Uzme li se u obzir (17), (18), (19), (20) i (22), sustav (16) postaje 


An(s2 +2) + Bnž = n(Sry +7) 
Anz+Bn=n, 


odnosno 
2 -_ == > 
(23) | hn za 2%) + BE = sry +TU 
z+B=y. 
Rješavanjem sustava (23) po nepoznanicama A i B dobiva se 
24 - =7- “ir 
( ) A = s2 , = tom s2 00 


Prema tome, jednadžba pravca koji u smislu metode najmanjih kvadrata naj- 
bolje aproksimira krivulju regresije y = y(aj), glasi 


J 


S 
y=Ar+B=“2r+g—- E, 
82 S 


odnosno 


(25) 


| 
| 
j 
! 
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Ako se vrijednosti za A i B iz (24) uvrste u (15), nakon sređivanja dobiva se 


s g2 
26) S=ns|l-- |. 
g 52 S 
Akoje1 s, > 0, onda se može uvesti oznaka 
S 
(27) r=-—=, 
SrSy 


pa (26) postaje 
(28) = me br) 
Na posve analogan način mogu se odrediti parametri C 1 D tako da zbroj 
(29) T= 329 (Cbx + D — aj)? fj 
jer k=)1 


bude minimalan. Dobiva se 


S S 
(30) G= D=#-—, 
Sy Sy 


tako da jednadžba pravca, koji u smislu metode najmanjih kvadrata najbolje 
aproksimira krivulju regresije z = Z(b,), glasi 


Sr -_ 
(31) 1— T= 2 (9 — D), 
y 


Ako se vrijednosti za Ci D iz (30) uvrste u (29), nakon sređivanja dobiva se 


(32) T=ns(l=7) 


Iz (25) i (31) razabire se da dobiveni pravci, koji se zovu pravci regresije, 
prolaze točkom (ZF, 7), što pokazuje da se oni sijeku u središtu dane dvodimen- 
zionalne razdiobe frekvencija. Za kut o koji čine ti pravci očigledno vrijedi 


2 
l—r* SxSy 


(33) tg P = 


M 


Za podatke iz 1. primjera izračunali smo već da je € = 2,70, 4 = 2,63, sr = 1,04 
isy = L11,a primjenom formule (21) dobiva se 
l 
ak ni o o LEE 
H3:3:4+3:9:1+4:3:1+4 -:4 +83 +5 +5 +2) — 2,70 + 2,63 a 0,87, 
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pa se odmah mogu napisati jednadžbe pravaca regresije 


Y — 2,63 = 0,80(z — 2,70) 
t—2,70 = 0,71(y— 2,63). 


0,87 1,1544 


Kako jEr = 104.111 = 0,75, 1Z (33) se dobiva tg o = 0,576 : 2.3137 = 0,285874, 1z 


čega proizlazi da je kut između pravaca regresije p = 16". 


Slika 20. Pravci regresije za podatke iz 
1. primjera 


5. Koeficijent korelacije 


Budući da su Si T nenegativne veličine, što se vidi i icijski 
MA ruta vaju ' ličine, di iz definicijskih formul 
(15) 1 (29), iz (28) i (32) proizlazi daje 1l—r? > 0, odnosno : 


(34) =lsr<d 


Ako je oR 1 onda se iz (33) razabire da je P=0,1i P=, što znači da se 
pravci regresije međusobno poklapaju. Nadalje se iz (28) i (32) vidi da je tada 
S = T =0, što znači da se dani statistički podaci (21,91),...,(Zn,Un), odnosno 
na tom zajedničkom pravcu koji ima jednadžbu 


odgovarajuće točke, nalaze 


(35) 


To, pak, znači da je 


S ž 
(36) K==—(q—-T)+y i=1.. 
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tj. podaci o obilježju Y funkcijski su ovisni o podacima o obilježju X, preko afine 
funkcije izražene formulom (36). 


Ako je r = 0, onda je i Sxy = 0, što se vidi iz (27), dok se iz (25) vidi da je 
prvi pravac regresije usporedan s apscisnom osi, a iz (31) se vidi da je drugi 
pravac regresije usporedan s ordinatnom osi. To znači da su zadani statistički 


podaci tako raspoređeni u koordinatnom sustavu da je linearna aproksimacija 
funkcije regresije a; > #(a;) neovisna o aj (j=1,...,r), a također i linearna 
aproksimacija funkcije regresije b, > Z(b;) neovisna je o by (k = 1,...,s). U 
tom se slučaju govori dasuz;jiy(2=1,...,n) nekoreliranistatistički podaci. 


Općenito se parametar r, definiran u (27), zove koeficijent korelacije i ako 
je r < 0,5 kaže se da su z; 1 y slabo korelirani podaci, a ako je r > 0,5 kaže se da 
je korelacija značajna. 

Za r > 0 govori se o pozitivnoj korelaciji, koja upućuje na činjenicu da se 
s porastom vrijednosti iksova (ipsilona) i vrijednosti ipsilona (iksova) u prosjeku 
povećavaju. Za r < 0 govori se o negativnoj korelaciji, što upućuje na prosječno 
smanjivanje vrijednosti ipsilona (iksova) pri povećanju vrijednosti iksova (ipsilona). 

Za podatke iz 1. primjera izračunali smo r = 0,75, pa se može reći da su u 
promatranom razredu ocjene učenika iz matematike značajno pozitivno korelirane 
s ocjenama učenika iz fizike. | 


ce) d) 


Slika 21. Skica rasporeda podataka za različite vrijednosti koeficijenata 
korelacije 
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Iz iznesenoga se vidi da koeficijent korelacije, kao određeni parametar koji 
se odnosi na statističke podatke o dvodimenzionalnom obilježju (X, Y), pokazuje 
stupanj afine funkcijske povezanosti među podacima o obilježju XX i podacima o 
obilježju XY. Zar = 1,ili r = —1, postoji potpuna afina (ponekad se govori i 
linearna) veza između iksova i ipsilona, dok za r = 0 nema govora o linearnoj 
povezanosti iksova i ipsilona. No, time još nije utvrđeno da ne postoji nikakva 
statistička povezanost između iksova i ipsilona. 


6. Statistička zavisnost 


Pri izučavanju problema zavisnosti i nezavisnosti statističkih podataka o 
diskretnom, dvodimenzionalnom obilježju (X, Y) čini se razumnim poći od kontin- 
gencijske tablice (v. tabl. 3). Pokazalo se, naime, zanimljivim izučiti one kontin- 
gencijske tablice koje zadovoljavaju uvjet: 


(37) njjk = 10. VE A ERP. u KE 


Ako kontingencijska tablica ispunjava uvjet (37), onda se uvjetne razdiobe 
frekvencija u recima tablice eventualno međusobno razlikuju samo u određenom 
koeficijentu proporcionalnosti. Analogna konstatacija vrijedi i za stupce takve 
kontingencijske tablice. 

Prema tome, u kontingencijskoj tablici koja ispunjava uvjet (37) sve uvjetne 
razdiobe frekvencije podataka o obilježju Y na određeni su način međusobno slične, 
pa se može reći da vrijednost obilježja X bitno ne utječe na uvjetnu razdiobu 
frekvencija podataka o obilježju Y. Također se može reći da vrijednost obilježja Y 
bitno ne utječe na uvjetnu razdiobu frekvencija podataka o obilježju X. 

Razumno je, stoga, reći da su podaci o obilježju X 1 podaci o obilježju X, 
prikazani kontingencijskom tablicom koja ispunjava uvjet (37), statistički nezavisni. 

Da bi se dobio pokazatelj odstupanja od statističke nazavisnosti, prirodno je 


promatrati razlike nfja > f;9k, J=1,...,7k=1,...,s1 pomoću njih definirati 
parametar 

1 Sao (nfja — fjak)* >> Jia 
(38) LEN Dog viietiti 8 ku 

9393 Ji9k 392 fi9k 


koji će globalno pokazivati odstupanje od statističke nezavisnosti u danoj kontin- 
gencijskoj tablici. 
Iz (38) se razabire da vrijedi 


(39) OJ < muirste=1l 
: 

1 f = 0 postiže se onda i samo onda kada je ispunjen uvjet (37), tj. kada je riječ 
O statističkoj nezavisnosti podataka. Nadalje, f2 = min(r,s) — 1 postiže se, pri 
r > s, onda 1 samo onda kada svaki redak kontingencijske tablice sadrži samo 
jednu, od nule različitu, vrijednost, a pri r < s onda i samo onda kada svaki stupac 
kontingencijske tablice sadrži samo jednu, od nule različitu, frekvenciju. To, pak, 
znači da parametar f* poprima maksimalnu mogucu vrijednost onda i samo onda 
kada su iksovi i ipsiloni povezani funkcionalnom zavisnošću, tj. svakoj vrijednosti 


i 
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lj lol r) obilježja X pridružena je jedna i samo jedna vrijednost obilježja Y 
(slučaj r > s), ilije, pak, svakoj vrijednosti bx (k =1,..., S) obilježja Y pridružena 


jedna i samo jedna vrijednost obilježja X (slučaj r < s). 
Za podatke iz 1. primjera dobiva se 


12 12 12 92 82 12 52 4? 12 
> i e a = > ——— + 
dona dne AA RO ETE TED AS TITSVI 10 :7 10 : 3 
12 32 92 
i će E VODE 
Vi Ago 


Maksimalna vrijednost za f*, u ovom primjeru (r = s = 5), iznosi 4, pa se može 
zaključiti da ocjena iz matematike i ocjena iz fizike u promatranom razredu nisu 
statistički nezavisne veličine, ali su i vrlo daleko od međusobne funkcijske zavisnosti. 
Veličina 
j“ 
e su minir,sh — 1 


pokazuje stupanj statističke zavisnosti iksova i ipsilona u danom nizu statističkih 


podataka o dvodimenzionalnom obilježju (X, Y). 


2 

Za podatke iz 1. primjera dobiva se stupanj statističke zavisnosti o = E S 
a 0,41, pa se može reći da između ocjena iz matematike i ocjena iz fizike u proma- 
tranom razredu postoji zavisnost od približno 41 %. : 

Zanimljivo je primijetiti da u definiciji parametra f? ne sudjeluju vrijednosti 
obilježja X i Y, već samo frekvencije iz kontingencijske tablice. To omogućuje da se 
parametar f*, a također i stupanj statističke zavisnosti o, primijeni kao pokazatelj 
statističke zavisnosti i u slučaju nenumeričkih statističkih obilježja. 


2. primjer 


Istraživana je veza između pojave povišenoga krvnog tlaka i pušenja, tako da 
je ispitano 180 osoba i rezultati su prikazani u tabl. 9. 


Tablica 5. 
Blagi = Teški 


pušač — pušač 


Nepušač 


Normalni 
tlak 
Povišeni 
tlak 


Izračuna li se, primjenom formule (38), vrijednost parametra f*, dobiva se 
f? = 0,08. Kako maksimalna moguća vrijednost za f* u ovom primjeru = 
— 2,s = 3) iznosi min(2,3) — 1 = 1, može se zaključiti da je u promatranoj skupini 
osoba povišeni krvni tlak vrlo slabo povezan s pušačkim statusom osobe. Stupanj 
statističke zavisnosti iznosi samo 8 %. 


nikon 
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7. Kontinuirana statistička obilježja 


Sva dosadašnja razmatranja odnosila su se na diskretna obilježja X i Y. Ako 
se niz statističkih podataka (z1,91),...,(Zn,Vn) odnosi na kontinuirana obilježja X 
i Y, onda se za oblikovanje kontingencijske tablice najprije mora izvršiti grupiranje 
podataka o obilježju X u, recimo, r razreda i grupiranje podataka o obilježju Y u, 
recimo, s razreda. 'To se radi na isti način kao što je opisano za jednodimenzionalne 
razdiobe frekvencija u I. poglavlju. Nakon toga određuje se broj f;x (frekvencija) 
onih uređenih parova u nizu (z1,91),...,(Zn,Un) kod kojih prvi član uređenog para 
pripada j-tom razredu iksova, a drugi član k-tom razredu ipsilona. Kontingencijska 
će tablica za podatke o dva kontinuirana statistička obilježja X i Y obično imati 
oblik prikazan tablicom 6. | 

Akosuao<ar <... <a, rubovi razreda za iksovej aba < bi <...<b, 
rubovi razreda za ipsilone, onda su: 


(Grd; Elba 


bn = 


(bx_1 +bx), k= Pošens 


odgovarajuće sredine razreda. 
Očigledno je da za veličine fjx, fjigg(j=1,...,7, k=1,...,8) iz tabl. 6. 
3) : l ' ' 
također vrijede formule (3), (5) i (6). Ako se stavi pja = —fjk, tj. ako se radi s 
e . .. .. - . n 
relativnim frekvencijama pjx, onda vrijede i formule (4), (7) i (8). 

Zorna interpretacija dvodimenzionalne razdiobe frekvencija za podatke o kon- 
tinuiranima statističkim obilježjima X i Y može se izvesti slično kao i za diskretna 
obilježja (sl. 17). Sada će se, samo, umjesto točke (aj,bx), frekvencijom fjk 
"opteretiti" pravokutnik određen j-tim razredom iksova i k-tim razredom ipsilona, 
tako da se iznad njega ucrta kvadar visine f;x (sl. 22). 


Tablica 6. 


broj 
razreda 
1 1 


4 


| 
1 
I 
| 
| 
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Slika 22. Skica dvodimenzionalne razdiobe frekvencija za podatke o 
kontinuiranim obilježjima 


2 2 


Iz formula (9), (10), (11) 1 (12) vidljivo je da se veličine Z, y, sz 1 sy mogu 
izračunati i bez uporabe frekvencija, što znači da te veličine ne ovise o izvršenom 
grupiranju podataka u razrede. Iz (21) se vidi da se i veličina sg, može izraziti bez 


uporabe frekvencija, tj. može se pisati 


(41) šey = — S (e: — PJ — 9) 


i=1 


Pogledaju li se jednadžbe (25) i (31) pravaca regresije i definicijska formula 
(27) za koeficijent korelacije, odmah se vidi da su ti pojmovi korektno definirani 
i za podatke o kontinuiranim statističkim obilježjima X 1 Y, a to znači da se 1 za 
njih može govoriti o koreliranosti i nekoreliranosti podataka, te o značenju manje 
ili veće koreliranosti u danom nizu podataka. 

Međutim, parametar f2, definiran u (38), bitno ovisi o kontingencijskoj tablici, 
tako da će za podatke o kontinuiranim obilježjima X i Y vrijednost f* ovisiti i o 
primijenjenom načinu grupiranja podataka u razrede. Stoga će stupanj statističke 
ovisnosti o, definiran formulom (40), osim o danim podacima, ovisiti i o izvedenom 
grupiranju podataka u razrede, što je nepoželjno svojstvo jednoga takvog parametra 
1 zato se izbjegava njegova primjena u praksi. 

Proračun najvažnijih parametara, kao što su ZF, U, sž, si 1 Szy, Može se 1 u 
slučaju kontinuiranih obilježja izvesti na temelju sređenih podataka u odgovarajućoj 
kontingencijskoj tablici (tabl. 6) koja je načinjena primjenom grupiranja podataka 
u razrede. No, tako dobivene vrijednosti samo su približno jednake točnim vrijed- 
nostima tih parametara 1 zato se piše 


r 


1 1 r 8 
(42) ne zauf=7b 0, 


jel jebre=l 


2 e sai o dlii 
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l 
(43) pe bobegk=— bb bulik, 
k=1 jzlk=1 
l r . 1 r 5 
(44) g - Daj -2fi= SRI. —z', 
j= j=lk=1 


nm 
na 

1 

7 
tn 

& nn 
2 

| 

“ 
> 
= 

| 

<A> 

7 
to 
<Q 

a 

I] 
Bi 
= 
om 

Ramo“ 
zm 

< 


k=1 bik = 
l r 5 1 r 3 
mus —T/(br—U)f;k = — k—>TTU. 
(46) Say PE T)(bx — U) fj PAB TU 


Primjedba 


Primjena elektroničkih računala (kompjutora) i odgovarajućih programskih 
paketa bitno olakšava i ubrzava rješavanje praktičnih zadataka u vezi s dvodimen- 
zionalnim statističkim obilježjima, jer omogućuje brzo, pregledno i prilično točno 
dobivanje traženih numeričkih rezultata, a također i grafičke prikaze relevantnih 
pojmova (dvodimenzionalne razdiobe, pravaca regresije i sl.). 


Zadaci 


1. Dvije igraće kocke bačene su n = 40 puta. Kocke se međusobno razlikuju 1 
prvi član (X) uređenog para odnosi se na prvu kocku, a drugi član (Y) na 
drugu kocku. Dobiveni su ovi rezultati: 


a) Načinite odgovarajuću kontingencijsku tablicu. 

b) Nađite marginalne razdiobe frekvencija. 

c) Izračunajte ZF, U, 52, s, lr. 

d) Nađite pravce regresije. 

e) Skicirajte u koordinatnom sustavu pripadnu dvodimenzionalnu razdiobu, 


funkcije regresije i pravce regresije. 


J 
2. Istraživan je odnos između ocjene (X) iz matematike u završnom razredu 
srednje škole i ocjene (Y') na fakultetskom ispitu iz matematike. Promotreno 
jen = 172 studenata i rezultati su prikazani ovom tablicom: 


L 
H 
i 
| 
i 
| 


m 


Izračunajte koeficijente korelacije 1 kut između pravaca regresije. 


3. Za n = 30 zadanih statističkih podataka 


BS ERI 12 [ 703 
0,6 | 0,7 091 1,0 
1,4 1 -0,2 25 | 0 

3,5 | 0,1 14 ([ 0,1 
241 40 47 [-0,4 
0,8 | 0,3 i. 5002 
1,0 | 0,3 39 | 0,1 
1,3 | 0,5 38 1-0,2 
3,0 | 0,4 0,9 | 0,8 
0,8 | 0,8 41 ( 0,8 


> 
— 
> 


primjenom grupiranja u razrede: 


a) načinite kontingencijsku tablicu, 
b) izračunajte koeficijent korelacije, 
c) nađite stupanj statističke zavisnosti. 


. Za niz podataka 


8,3. 7,5. 45. 7,5. 7,6. 6,9 4,5 
8,0 7,5. 7,5. 95. 10.88. 4,5 


izračunajte koeficijent korelacije. 


. Za podatke svrstane u kontingencijsku tablicu 


izračunajte stupanj statističke zavisnosti. 


. Zeli se istražiti statistička zavisnosti između susjednih slova u tekstovima 


hrvatskog jezika. Uzmite iz proizvoljnog teksta n = 200 uređenih parova sus- 
jednih slova i načinite pripadnu kontingencijsku tablicu, tako da obilježje X 
označuje prvo, a obilježje Y drugo slovo uređenog para. Na temelju tako do- 
bivene kontingencijske tablice izračunajte stupanj statističke zavisnosti prvog 
i drugog slova uređenog para u danom nizu podataka. 


T. Dokažite relacije (18)-(20). 
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8. Dokažite da vrijedi Pregled važnijih pojmova i formula deskriptivne statistike 


>) ap=2) -Dla= XX otela ua Ty. 


jzik=l pariz broj pojavljivanja j-tog(j=1,...,T7 


događaja u nizu od n opažanja 
(relacija (21)) 
9. Dokažite da je formulama (24) dano rješenje sustava (23). 
10. Izvedite formulu (26). 
11. Izvedite formulu (33). 
12. Dokažite relaciju (39). 


funkcija 
kumulativnih 
relativnih frekvencija 


varijanca 

standardna 

devijacija 

raspon ao a E IMI Li;et4 


centralni 
moment k-tog 
reda 


koeficijent 
asimetrije 

koeficijent 
spljoštenosti 


središte 
dvodimenzionalne 
razdiobe 


korelacijski 
moment 
koeficijent a 
sa T = —— 
korelacije 


kut između 
pravaca 
regresije 


odstupanje od 
statističke 
nezavisnosti 


stupanj 
statističke 
zavisnosti 
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DRUGI DIO 


MATEMATIČKA TEORIJA 
STATISTIČKIH FENOMENA 


Temeljna je pretpostavka za stvaranje teorije o statističkim fenomenima koji 
se očituju pri proučavanju i analizi statističkih podataka da su izmjereni, odnosno 
opaženi, brojčani podaci posljedica postojanja tzv. statističkih zakonitosti, koje su 
i inače karakteristične za slučajne pojave. 

Slučajnost rezultata mjerenja može biti posljedica prirode promatrane pojave, 
može biti prouzročena nedovoljnom preciznošću instrumenata za mjerenje, može 
biti uzrokovana subjektivnim faktorom (mjeračeva nesavršenost i sl.), a također 
može biti i rezultat svega zajedno. Iskustvo je, međutim, pokazalo da i uz prisutnost 
različitih vrsta slučajnosti postoje određene zakonitosti u globalnom ponašanju 
rezultata mjerenja, koje se mogu i matematički opisati. 

Statističke zakonitosti očituju se u situacijama kada je broj n mjerenja "do- 
voljno velik", jer se tada relativne frekvencije stabiliziraju oko fiksiranih brojeva — 
vjerojatnosti. Pri izgradnji matematičkih modela statističkih fenomena korisno je 
zamisliti da je broj mjerenja (opažanja) beskonačno velik, jer će se tada, umjesto 
relativne frekvencije kao određene empirijske veličine ovisne o broju mjerenja n, u 
modelu pojaviti apstraktno-matematički pojam vjerojatnosti događaja. Stoga će se 
u statističkoj teoriji operirati s razdiobama vjerojatnosti, umjesto s razdiobama rela- 
tivnih frekvencija, što je činjeno u deskriptivnoj statistici. Umjesto o statističkom 
obilježju X, u matematičkoj teoriji statističkih fenomena (teorija slučajnih vari- 
jabli) govori se o slučajnoj varijabli X, kojoj pripada odgovarajuća razdioba (dis- 
tribucija) vjerojatnosti, što je posve teorijski pojam. 

Teorijski model za simultano promatranje više statističkih obilježja X1,..., Ak 
(k € N) razvijen je u okviru teorije slučajnih vektora, gdje je temeljni pojam k- 
-dimenzionalni slučajni vektor (Xy,..., Xx), čije su komponente Xi, ..., Xx slu- 
čajne varijable i kojemu pripada određena k-diumenzionalna razdioba vjerojatnosti. 

Teorija slučajnih varijabli i slučajnih vektora dio je opsežnije matematičke 
discipline — teorije vjerojatnosti, koja je glavni teorijski oslonac za razvijanje teorije 
statističkih zakonitosti. 

Budući da je osnovna svrha ove knjige da se iznesu temeljni pojmovi i metode 
matematičke statistike, te da se prikažu tipične primjene u istraživanjima 1 praksi 
u različitim strukama, u ovom dijelu knjige prikazat će se samo nužni pojmovi i 
navesti glavni rezultati teorije slučajnih varijabli i slučajnih vektora, bez dubljeg 
ulaženja u samu teoriju. 


IV. Teorijska interpretacija 
jednodimenzionalnih 
statističkih obilježja 


1. Razdioba vjerojatnosti 


Razdioba vjerojatnosti slučajne varijable X karakterizirana je svojom funkc1- 
jom razdiobe vjerojatnosti (f.r.v.) definiranom formulom 


(1) F(r)=P(X <=), x€R. 


Formula (1) kazuje da je F(z) realan broj koji označuje vjerojatnost da se 
prilikom mjerenja slučajne varijable (s.v.) X dobije vrijednost koja ne premašuje 
realni broj z. 

Budući da je f.r.v. teorijski analogon funkcije kumulativnih relativnih frekven- 
cija (v. formulu (5) i sl. 3. u I.2), očigledno vrijedi 


(2) F(-o)= lim F(z)=0, F(oo)= lim F(z) =1, 
(3) T=<r.= F(zi) < F(z2), Ti, ER. 


Iz (1)-(3) vidi se da je z +> F(z) neopadajuća realna funkcija realne varijable, 
koja može poprimati vrijednosti iz segmenta [0, 1]. 

Problem proučavanja razdioba frekvencija za različite nizove statističkih po- 
dataka, na teorijskoj razini postaje problem proučavanja osobina f.r.v., t). određenih 
realnih funkcija realne varijable koje posjeduju svojstva (2) i (3). 

Odmah valja primjetiti da će svakom pojmu, koji je definiran pomoću 
razdiobe frekvencija, na teorijskoj razini odgovarati analogni pojam definiran 
pomoću vjerojatnosne razdiobe. Razdioba frekvencija proizlazi iz danoga konačnog 
niza statističkih podataka, dok se razdioba vjerojatnosti definira apstraktno- 
-matematički bez pozivanja na empirijske činjenice, pa će i svi izvedeni pojmovi 
biti apstraktni. 

Već je u I. poglavlju istaknuto da postoje određene razlike u tretiranju 
statističkih podataka za diskretno i za kontinuirano statističko obilježje. To se 
odražava i na izgradnju odgovarajućih matematičkih modela. 


Diskretno statističko obilježje teorijski se interpretira kao diskretna slučajna 
varijabla X sa zadanim skupom vrijednosti A = fa,,...,a,) (može bitiir = 09) 
i pripadnim vjerojatnostima 


(4) pSPOC=0) 20.121.085 BET, 
= 
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Oznaka P(XX = aj), ili kraće P(aj), označuje vjerojatnost da s.v. X poprimi 
vrijednost aj. Broj pj ima istu ulogu kao relativna frekvencija podataka a; u 
razdiobi relativnih frekvencija opisanoj u 1.2. Formulom (4) definirana je diskretna 
razdioba vjerojatnosti. 


Kao teorijski model za kontinuirano statističko obilježje uzima se kontinuirana 
slučajna varijabla X sa zadanom funkcijom gustoće vjerojatnosti (f.g.v.) 
z—> f(z) >0,zER, čija su bitna svojstva 


OO 


(5) / f(z)da=1, 


— oo 


b 
(6) Plaxx<W)= | fo)da>0 ab€ER, a<b. 


Oznaka P(a < X < b) označuje vjerojatnost da s.v. X poprimi vrijednost koja 
nije manja od broja a1 nije veća od broja 0. 
Iz (6) se razabire, stavljajući b = a, da za kontinuiranu s.v. vrijedi 


(7) P(X =a)=P(a)=0, aER, 


što znači da je vjerojatnost da kontinuirana s.v. X poprimi bilo koju pojedinačnu 
vrijednost a (a € R) jednaka nuli. Govori se da je zadanom f.g.v. z > f(z) 
definirana kontinuirana razdioba vjerojatnosti. 

Kontinuirana s.v. matematički je model za one realne slučajne fenomene u 
kojima se kao rezultat mjerenja može dobiti bilo koji broj iz nekog intervala realnih 
brojeva, ili iz cijelog skupa R. Statistička zakonitost održava se u različitoj gustoći 
rezultata mjerenja na pojedinim dijelovima (podskupovima) skupa R i upravo to 
se apstraktno-matematički izražava funkcijom gustoće vjerojatnosti. 


2. Diskretna razdioba vjerojatnosti 


Funkcija razdiobe vjerojatnosti diskretne s.v. X može se, očigledno, zapisati u 


obliku 
(8) F(z) = ». Dj, ZER, 


aj <= 
gdje je naznačeno da se zbraja po svim onim j-ovima za koje vrijedi aj < z. 

Geometrijski prikaz diskretne razdiobe vjerojatnosti može se načiniti tako da 
se na apscisnu os nanesu vrijednosti aj (j=1,...,r),a kao pripadne ordinate uzmu 
odgovarajuće vjerojatnosti pj (sl. 1). 
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IV .2 Diskretna razdioba vjerojatnosti 23 


4) a2 +... aj +... ar Kod 


Slika 1. Skica diskretne razdiobe vjerojatnosti 


Drugi način grafičkog prikaza diskretne razdiobe vjerojatnosti jest taj da se 
skicira graf f.r.v. (sl. 2). 


l 


I 


e. oo — 


Slika 2. Skica grafa f.r.v. za diskretnu razdiobu 


Sva važnija svojstva diskretne s.v. X mogu se izraziti pomoću njezinih vri- 
jednosti aj (j=1,...,r) 1 pripadnih vjerojatnosti pj = P(X=aj), tako da odgo- 
varajuća f.r.v. (8) nema veliko praktično značenje. 

Na temelju već istaknute analogije između razdiobe frekvencija i diskretne 
razdiobe vjerojatnosti mogu se na teorijskoj razini definirati pojmovi koji će biti 
analogni pojmovima definiranima u II. poglavlju za niz statističkih podataka. Tako 
se pojmu prosjeka niza statističkih podataka kao analogni teorijski pojam definira 
matematičko očekivanje diskretne slučajne varijable. Piše se 


i broj ELX] zove se matematičko očekivanje, ili kraće očekivanje diskretne 
s.v. X. Govori se još da je ELX] sredina s.v. X. Umjesto ELX] često se, zbog 


kraćeg zapisa, upotrebljava oznaka pu, kada nije bitno da se istakne s.v. na koju se 


očekivanje odnosi. Na ; ' 
Ako je # = 00, onda se, dakako, postavlja 1 problem konvergencije reda u (9). 


Može se, naime, dogoditi i da E[X] ne postoji, ili da je beskonačno. | 
Jasno je da parametar u =E[X] karakterizira danu razdiobu vjerojatnosti + 
smislu lokacije, tj. njezin položaj na brojevnoj osi. 
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Teorijski analogon za pojam varijance niza statističkih podataka je pojam va- 
i. rijance ili disperzije diskretne s.v., koji se obično označuje sa V[X], ili kraće o“ 
bo i definira formulom 


) 


| Odmah se vidi da parametar o“ karakterizira danu diskretnu razdiobu vjerojatnosti ž MORE E E E 
N u smislu raspršenja, odnosno rasipanja vrijednosti aj diskretne s.v. X oko njezine ž 
; sredine pu. 
Iz (10) se lako dobiva formula | 
bo ik jo > : ada tea 1 3. Primjeri diskretnih razdioba vjerojatnosti 
bo = api > u = pe : l 
: ; i . . DJ . . 
j=1 : Smisao teorijskih vjerojatnosnih razdioba sastoji se u tome da pojedini tipovi 
' r ' teorijskih razdioba mogu poslužiti kao matematički model za mnoštvo različitih 
| pri čemu je E[X*] = >) ajpj. Formula (11) može se čitati i tako da se kaže da je | statističkih fenomena. Posebno su prikladni oni tipovi teorijskih razdioba koji se 


mogu jednostavno matematički opisati, tj. sama razdioba vjerojatnosti 1 najvažniji 


varijanca jednaka očekivanju kvadrata minus kvadrat očekivanja s.v. X. parametri mogu se izraziti jednostavnim formulama. 


Sada je jasno da se na teorijskoj razini mogu definirati i analogoni statističkih 


1 momenata uvedenih u 1.6. Tako se parametar ' : 

g Kaže se da s.v. X ima binomnu razdtobu s parametrima m 1 p (m € N,0 < 
2 ou i <p< 1)ipiše se X — B(m,p), ako je njezin skup vrijednosti A = (0,1,...,m), 
| (12) Pe = X ajpj= EX] k=0,1,... a pripadne vjerojatnosti izražavaju se formulom 

sal 


m\ ; “E 
zove tshodišni (pomoćni) moment k-tog reda, a parametar (16) p=PX=j)= pa =p)"*, JEA. 
Tr 
. mome m sm i | ma 
(13) HE 2(a HP, k=0,1, Naziv binomna razdioba proizlazi iz činjenice da se u formuli (16) pojavljuje tzv. 
J= 


zove se centralni (glavni) moment k-tog reda diskretne s.v. X. 


binomni koeficijent ća i da poznata formula binomnog poučka daje 
J 
Definiraju se također i analogoni parametara oblika. Tako se parametar 


naevjao PIENENE A mje o PAN PT TP PET POPIO IE 
rover rone eee ZOO O OAO PTT TA o Gde 


m m 
l m 27 za 
(14) k= = pro = > (Span = m =1, q=1-p. 
o OJ E 
j=i| j=| 
zove koeficijent asimetrije, a parametar : ' * 
Lako se pokazuje da za najvažnije parametre binomne razdiobe vrijede formule 
L 
(15) e=2-: 
o 17) E[X] = mp, 
koeficijent spljoštenosti (eksces) dane diskretne razdiobe vjerojatnosti. (18) VLX] = mp(1 — p), 
Svojstva i značenje parametara (očekivanje, varijanca, momenti i sl.) teo- l — 2p 
rijske razdiobe vjerojatnosti slična su onima u empirijskim razdiobama relativnih i (19) ši: mpl = py 
frekvencija. | mp p 
| Ako je VLX] = 0, tada se govori o degeneriranoj vjerojatnosnoj razdiobi. Tada, i ) — DESOPLI Sp) 
naime, s.v. X poprima očekivanu vrijednost u s vjerojatnošću jedan, tako da i nije i (20) = mp(l-p) 


da ' 
riječ o "pravoj" s.v., već o konstanti g. 
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Najtipičnija praktična situacija u kojoj se pojavljuje binomna razdioba jest. 


m-struko ponavljanje slučajnog eksperimenta u kojem se uočava određeni događaj 
vjerojatnosti p 1 pritom promatra broj X nastupa (uspjeha) toga događaja 
(Hernoulijeva shema). Veličina X diskretna je s.v. binomne razdiobe B(m, p). 

Za m = 1 imamo tzv. Bernoullijevu razdiobu B(1,p). Tada s.v. X ima skup 
vrijednosti A = 40,1) 1 X = 0 označuje "neuspjeh" (nenastupanje događaja), a 
X =1 "uspjeh" (nastupanje uočenog događaja) pri izvođenju danoga slučajnog 
eksperimenta. 


Slika 4. Grafički prikaz B(10 ; 0,2) 


0 )-02-(1- 0,2) =08" = 
2 0,11, t). vjerojatnost da se u deset ponavljanja slučajnog eksperimenta ne dobije 
nijedan uspjeh iznosi oko 11%. Očekivani je broj uspjeha ELX] = 10 :0,2 = 2, uz 
varijancu VLA] = 10-0,2-0,8 = 1,6, odnosno standardnu devijaciju a = /1,6 = 1,26. 
Ova razdioba je pozitivno asimetrična (Kk a 0,47). 

Iz (19) se, inače, vidi da će binomna razdioba biti simetrična za p = 0,5, da će 
za p< 0,9 biti pozitivno asimetrična, a za p > 0,5 bit će negativno asimetrična. 

Najveća vjerojatnost u B(m,p) pripada vrijednosti jg € A, za koju vrijedi 


Ako X — B(10;0,2), ondaje P(X =0) = po = ( 


(21) pm +1) —_1<jo<plm+ 1). 


Za binomnu razdiobu sa sl. 4 vrijedi p(m + 1) = 0,2: 11 = 2,2, tako da je 
Jo=2latoje očigledno | 1 iz sl. 4. 

Za velike m 1 male p binomna razdioba B(m,p) aproksimira se tzv. Po1s- 
sonovom razdiobom, pa se još govori da je to razdioba “rijetkih događaja". 
Dokazuje se, naime, da vrijedi 


m —> oo 
p—o 
mp=A 


' j 
lim pa _ pri = 2 exp(-2), A > U. 
J JI 


(A € R), lako 


o 
Budući da se, na temelju poznate činjenice da je exp(A) = že, ZEru 
pao 
i A 
dokazuje da je 3" I exp(—A) = 1, moguće je izreći sljedeću definiciju. 
jeng 
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Kaže se da s.v. X ima Poissonovu razdiobu parametra A1 piše X > Po(A) ako 
je njezin skup vrijednosti A = (0,1,2,.. .), a pripadne vjerojatnosti dane su 
formulom 


(22) 


pa: 
u B(20; 0,1) 


Vjerojatnosti 
Pju ne 


| . 


0 l 2 3 4 6) 6 zA 8 9 10 
Slika 5. Grafički prikaz Po(2) (kružići) i B(20 ; 0,1) (križići) 


Za najvažnije parametre Poissonove razdiobe Po(A) vrijede formule 


(24) | Hi Ea 


Iz (24) se vidi da je Poissonova razdioba pozitivno asimetrična, a iz (22) se lako 
izvodi da najveća vjerojatnost pripada vrijednosti jo € A, za koju vrijedi 


(25) Ak =a 


€. : 


ride. 


[4+ Teorijska interpretacija jednodimenzionalnih statističkih obilježja IV.4 


Ako Je A cijeli broj, onda, dakako, postoje dvije vrijednosti u skupu A kojima 
pripada maksimalna vjerojatnost. 

U tabl. 1. i na sl. 5. usporedno su prikazane Poissonova razdioba Po(2) i 
B(20 ; 0,1) (mp = 2), što zorno pokazuje odnos tih dviju vjerojatnosnih razdioba i 
smisao aproksimacije binomne razdiobe Poissonovom razdiobom. 

o Ako se Pri ponavljanju nekoga slučajnog eksperimenta uoči određeni događaj 
vjerojatnosti p (0 < p < 1) i zatim promatra veličina X koja označuje broj po- 
navljanja do prvog nastupa (uspjeha) tog događaja, onda je X diskretna slučajna 
varijabla sa skupom vrijednosti A = (1,2,...) i pripadnim vjerojatnostima 


(26) p=pgil, jeA (q=1-p). 


Kaže se da diskretna s.v. X Ima geometrijsku razdiobu parametra p. U dokazu 
I kd 1 ni . . co * 
jednakosti & neš po el koristi se poznata činjenica da je 97 q/-| konver- 


aje pa EA i j=1 
gentan geometrijski red, clja suma iznosl ———> = —. To omogućuje da se izvedu i 


Ko 


formule za naj važnije parametre geomatrijske razdiobe 


(27) EX] = > VLX] 2 S: 


0 
l 2 3 4 5 6 7 


Slika 6. Grafički prikaz geometrijske razdiobe 
parametra p = 0,5 


4. Kontinuirana razdioba vjerojatnosti 


Ža razlik Em ' no i 
ije Sh ovaa diskretne razdiobe, koja neposredno odražava svojstva empirij- 
ma . re u frekvencija nekog niza statističkih podataka, kontinuirana 
Tojatnosti ne može se nepos SENN : ' 
sag > neposredno realizirati ni u k 
statističkih podataka. akvom nizu stvarnih 


Kontinui jeroj 1 najčešć 
. Pak razdioba vjerojatnosti najčešće se zorno prikazuje pomoću tzv. 
Tue razdiobe, tj. grafa f.g.v. 
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Slika 7. Skica krivulje razdiobe 


Prema (5) očigledno je da površina ispod krivulje razdiobe iznosi jedan, dok 
se iz (1) razabire da se f.r.v. može zapisati u obliku 


(28) Fae)= | roat 


što znači da broj F(z) izražava površinu ispod krivulje razdiobe, a iznad intervala 
(—oo, z]. 
Sada se vidi da se jednadžba (6) može zapisati i u obliku 


(29) P(a<X<b)=F(06)-—F(a), abER, a<b. 
Deriviranjem jednadžbe (28) po z i vodeći računa o (29), dobiva se 


nr =. 8 F(z+Az)— F(z) 
PL S Ee 


Pz<X<r+Arz) 
Az ' 


što za f(x) opravdava naziv "gustoća vjerojatnosti“ u točki z. 

Iz (6) se, također, razabire da se vjerojatnost "padanja" rezultata mjerenja 
s.v. X u segment [a,b] može zorno vidjeti kao površina ispod krivulje razdiobe, a 
iznad segmenta [a,b]. Iz ovoga se, nadalje, razabire da se za male Az može pisati 


Paz<X<r+Az)a f(z)Az, 


što označuje da je, teorijski gledano, udio onih rezultata mjerenja koji padaju u 
segment [2,2 + Az] približno jednak f(z)Az. 

Definicija parametara kontinuirane razdiobe vjerojatnosti, kao što su mate- 
matičko očekivanje, varijanca, momenti itd., mora uzimati u obzir kontinuirani 
karakter promatrane s.v. X, tako da će odgovarajuće definicijske formule, umjesto 
suma, sadržavati integrale. 
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Matematičko očekivanje kontinuirane s.v. X definira se formulom 


(30) u = EX] 


dok se varijanca definira formulom 


(31) 


Ishodišni (pomoćni) momenti definiraju se formulom 


(0.9) 


(32) 8 = | a*fa)de, 


— oo 


a centralni (glavni) momenti formulom 
(33) me= | (#-1ćfa)da 


Važno je primijetiti da se u formulama (30)-(33) pojavljuju nepravi integrali, 
kod kojih se postavlja pitanje konvergencije, tako da se može dogoditi da navedeni 
parametri za neke razdiobe vjerojatnosti i ne egzistiraju. 


Stavi li se ELX*] = f/ «t*f(z)de,k =0,1,..., odmah se vidi da se formule 
(30)-(33) mogu zapisati pomoću oznake E, pa je 


(34) VLX] = E(X — u)?] = E[X2] — 12 = E[X?] - (E[X])?, 
(35) Dz EPU m=HOC=1u)) t=01... 
To omogućuje da se i za kontinuirane razdiobe definira koeficijent asimetrije i ko- 
eficijent spljoštenosti formulama (14) i (15). 

Značenje očekivanja ki varijance o“, kao najvažnijih parametara neke teorijske 
Vjerojatnosne razdiobe, može se uočiti uz pomoć tzv. Cebiševljeve nejednakosti. Ako 


Je, naime, € proizvoljan realan broj i za s.v. X (diskretna ili kontinuirana) vrijedi 
da je E[(X — c)?] < oo, onda za svaki realni broj 6 > 0 vrijedi 


(36) P(IX — e] > 6) < >; BUX — 0?) 


Uzme li se € = p, tada je E[(X — c)?*] = EX — u)*]= o? i (36) postaje 


to 


Pipe njžo) e Fv 


t 
i 
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: 
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Stavi li se još 6 = Aa (A > 0), dobiva se 


1 
P(IX —ul> Ag) < VI 


što se može pisati i kao 
1 
(37) P(u—2Ar<X<u+2Ao)>1-:5z. 
Relacija (37) pokazuje, kao što se vidi i na sl. 8, da je u svakoj vjerojatnosnoj 


razdiobi interval (u — Ag, pi + Ag) "opterećen" bar vjerojatnošću 1 — —, odnosno 


M2 


vjerojatnosnog opterećenja. 


1 
M2 


da izvan toga intervala ne ostaje više od 


Slika 8. Grafička interpretacija Čebiševljeve nejednakosti 


Posebno, uzme li se A = 3, dobiva se da je interval (u — 30, u +30) opterećen 


pio ; l e i : . 
bar vjerojatnošću 1— — = g odnosno da u svakom teorijskom modelu udio onih 


9 


vrijednosti s.v. X koja padaju u interval (u — 30, u + 30) iznosi bar g 90 %. 


Čebiševljeva nejednakost teorijski je analogon relacije (16) iz II.4, koja se 
odnosi na empirijsku razdiobu frekvencija. 

U II.2. uveden je pojam medijana, a u II.5. pojam kvartila za niz statističkih 
podataka, pa se prirodno nameće ideja da se i za teorijsku vjerojatnosnu razdiobu 
definiraju analogni pojmovi. Grubo rečeno, medijan vjerojatnosne razdiobe bit će 
ona vrijednost (točka) koja razdiobu vjerojatnosti dijeli na dva jednaka dijela od 
po 0,5 (ukupno raspodijeljena vjerojatnost iznosi 1). Uzme li se u obzir značenje 
f.r.v. definirane formulom (1), odmah se vidi da je medijan M dane vjerojatnosne 
razdiobe ona vrijednost (M € R) za koju vrijedi 


(38) F(M) = 0,5. 


Slično se definira i općenitiji pojam kvantila £, reda p (0 < p < 1) vjerojatnosne 
razdiobe zadane funkcijom razdiobe vjerojatnosti F', kao ona vrijednost (z, € R) 
za koju vrijedi | 


meki 
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(39) P(a,) — Pp. 


Očigledno je M = r9,5, t]. medijan je kvantil reda 0,5. 
Kvantili 20,25 1 0,75 Zovu se kvartil?, a veličina 


(40) 02 = 20,75 — 20,25 


zove se interkvartilni raspon zadane vjerojatnosne razdiobe. 

Ako je riječ o simetričnoj razdiobi vjerojatnosti sa središtem simetrije u točki 
K(KER), tj. ako pripadna f.g.v. zadovoljava uvjet f(u—z)= f(u+z=), za svaki 
z € R, onda se medijan M poklapa s očekivanjem ELX] = u (ako postoji) i za 
kvantile općenito vrijedi 


(41) lp = 2 — li-p- 


Analogon svojstva medijana niza statističkih podataka iskazanog relacijom (10) 
iz 11.2. sada glasi 


(42) min E[LX — el] = E[|X — MI] 


Formulom (42) izriče se činjenica da se minimalno očekivanje apsolutne razlike 
(udaljenosti) između s.v. Xi realnog broja c postiže onda kada se uzme ec = M. 


5. Primjeri kontinuiranih razdioba vjerojatnosti 


Konkretna teorijska kontinuirana moe vjerojatnosti obično se zadaje svo- 
jom funkcijom gustoće vjerojatnosti. Najvažniji model teorijske razdiobe vjerojat- 
nosti uopće je normalna ili Gaussova razdioba. 


Za kontinuiranu s.v. X kaže se da ima normalnu razdiobu s parametrima u i o? 
i piše X — N(ui, 02), ako je njezina f.g.v. zadana formulom 


(43) 


Može se dokazati da je 


(44) m / eo i =) dgs=i 


a također i formule 


(45) EX] = u, VLA] = 0%, kK=0,  €£=0. 


Odmah se vidi da parametri 4 i €* normalne razdiobe i imaju važno statističko 
značenje očekivanja (sredine) i varijance (disperzije) s.v. X. 


| 
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Krivulja normalne razdiobe simetrična je u odnosu na pravac z = u, ima 


1 
OV2T 
Može se reći daje normalna razdioba N(pu, o) teorijski model za simetričnu raz- 
diobu rezultata mjerenja, čija gustoća zvonoliko opada s udaljavanjem od središta 


simetrije uu (sl. 9). 


zaz=u,dokzaz=pu—0iz=u+ o ima točke infleksije. 


maksimum 


Slika 9. Primjeri krivulja normalne razdiobe 


Iz (28) proizlazi da se f.r.v. za N(pu, a“) izražava formulom 


(46) F(z) = m] JE =) dt. 


Integral na desnoj strani u (46) nije elementarno rješiv 1 zato se u računima s 
normalnom razdiobom upotrebljavaju tablice, gdje su navedene vrijednosti f.r.v. 
standardne ili jedinične normalne razdiobe N(0,1), za koju je u = 0id* = 1. 
Pripadna f.g.v. obično se označuje sa o, a f.r.v. sa P, tako da je 

t 


(47) ,e)=—=eo(-5) dia ELIK 5) at 


Funkcija p je parna, tj. vrijedi p(—z) = p(z), dok za funkciju $ vrijedi 


(48) d(-r)=1— 2), — $(0) =0,5. 


Stoga je dovoljno tablično prikazati vrijednosti tih funkcija za z > 0. 
Veza između N(pu, o“) i N(0,1) uspostavlja se formulama 


(49) fe)=20(272),  re)=e(5=*), 


tako da za s.v. X < N(u,o2) ia <b vrijedi 
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Slika 10. Graf funkcije e 


(50) Pazx<h-a(-—2)_0(*=#) 


Posebno, za proizvoljno A > 0, iz (50) se dobiva 

(51) P(u—Ag<X<u+Ads) =20(A) — 1. 

Uzme li se A = 3, iz (51) i tablice za funkciju & (v. tabl. III. u Dodatku), proizlazi 
(52) P(u—3a < X < u+30) & 0,99738, 

iz čega se vidi da, iako teorijski gledano normalna razdioba svakome realnom broju 
pridružuje pozitivnu gustoću vjerojatnosti, praktički gledano interval [,—30, u-+30] 


obuhvaća gotovo sveukupno (99,73 %) vjerojatnosno opterećenje koje iznosi jedan. 
Druga važna dvoparametarska familija teorijskih kontinuiranih razdioba vjero- 


Jatnosti, koja se rabi kao matematički model za one realne statističke fenomene | 


u kojima se kao rezultati mjerenja mogu dobiti samo nenegativni brojevi, je 
gama-razdioba. Kaže se da s.v. X ima gama-razdiobu s parametrima a i 6 
(a > 0,8 > 0) i piše X — G(a, 8B), ako pripadna f.g.v. glasi 

0, zaz <0 


“ exp(—az), zat > 0, 


gdje je T(B) = f149-! exp(—t)dt, tj. B > T(B), B > 0, jest tzv. gama-funkcija, čije 
0 


se vrijednosti obično tablično prikazuju (v. tabl. IV. u Dodatku). 


la B = 1 dobiva se eksponencijalna razdioba parametra a i tada se piše 
A Ex(a). Iz (53) se razabire da pripadna f.g.v. glasi 
54 pom 0, zaz<0 
9 16) aexp(—az), zaz > 0. 


Eksponencijalna razdioba najčešće se pojavljuje kao matematički model za 
opisivanje slučajnog vijeka trajanja određenoga elektrotehničkog ili nekoga drugog 
proizvoda (žarulja, otpornik, kondenzator i sl.). 


on o A o nn ki 


———————__ og o o PV PP a S o ona ro o o m 
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Slika 11. Skica različitili krivulja gama-razdiobe 


Ako se u gama-razdiobi specificiraju parametri a i 3 tako da se stavi a = 0,5 
: n Nag? NE : 
PoE 5 (n € N), onda se govori o htkvadrat-razdiobi sa n stupnjeva slobode 
i piše X = y?(n). 

Da bi se u primjenama izbjegla složena računanja u vezi s gama-razdiobama, 
izrađene su tablice gdje su navedene vrijednosti za f.r.v. uz određene vrijednosti 


parametara. 
Odgovarajućim izvodima može se dokazati da za s.v. X — G(a,/B) vrijedi 
m. 8 2 6 
59 EX|=—, VX|= —, k= >, € =>. 
(55) Wl=5, VRI= = poć=; 
Iz ovoga odmah proizlazi da za X — Ex(a) vrijedi 
(56) iikjeo. Viti== hik 
ak I Ee A E=-a= kE= =b, 
a" a2 ) 
dok za X — x*(n) vrijedi 
12 
(57) Flaj=u, VAl=2n, «= A € = — 
n n 


Ako se kao moguće vrijednosti mjerenja u nekom slučajnom eksperimentu po- 
javljuju samo brojevi iz intervala (0,1), onda se, kao odgovarajući matematički 
model, obično uzima neka od teorijskih razdioba iz dvoparametarske familije vjero- 
jatnosnih razdioba koja se zove beta-razdioba. Kaže se da s.v. X ima beta- 
razdiobu s parametrima a i B (a > 0,8 > 0) ako je njezina f.g.v. zadana formulom 


U, zazsb1ez1 


(58) Hz) = I(a +) 2"-'( 


gol . 
DI, mv e 1. 
T(a)T(3) 
Pokazuje se da je 


: PE: rm a0 
(39) pe a  (a+8)?(a+B8+1) 
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Zaa=1iB8=1,1z (58) proizlazi 


0, zaz<0iz>1 
(60) fe)=( 1 zaO0<r<1 


i tada se govori o jednolikoj (uniformnoj) razdiobi nad intervalom (0,1) i 
piše X—U(0, 1). Uniformna razdioba U(0,1) teorijski opisuje razdiobu rezultata 
slučajnih mjerenja u kojima se svaki broj iz intervala (0, 1) pojavljuje s istom šan- 
som. Često se, umjesto o jednolikoj razdiobi nad intervalom (0, 1), govori o jedno- 
likoj razdiobi U(0,1) nad segmentom [0,1], između čega nema bitnih razlika. 


Za X — U(0,1) vrijedi 


1 
== A = — (= — —1.2. 
(61) ELX] 3 VLX] TI KD, € 1, 


a>1,8>1 


0 1 T 
Slika 12. Skica različitih krivulja beta-razdiobe 


6. Funkcije slučajne varijable 


Mnoge praktične situacije zahtijevaju da se, umjesto s izmjerenima statističkim 
podacima, radi s transformiranim podacima pomoću određene realne funkcije realne 
varijable. Ako je originalni niz podataka z,,...,Zn, niz transformiranih podataka 
bit će yi,...,Yn, gdjejey =h(m) (i=1,...,n), pri čemu je h zadana funkcija 
(transformacija). Odmah se postavlja pitanje određivanja ovisnosti (formula) koje 
povezuje razdiobu frekvencija i odgovarajuće parametre izvornih podataka i trans- 
formiranih podataka. , 

Na teorijskoj razini taj se problem svodi na određivanje veza između zadane 
slučajne varijable X, njezine vjerojatnosne razdiobe i pripadnih parametara, s jedne 
strane, 1 s.v. X = h(X), odnosno njezine razdiobe vjerojatnosti i pripadnih para- 
metara, s druge strane. | 

Ako je, na primjer, riječ o tzv. afinoj transformaciji zadanoj formulom 
h(z) = az+b (a £0), iako s.v. X pripada f.r.v. F, onda slučajnoj varijabli 
Y =aX +b pripada funkcija razdiobe vjerojatnosti 


| 
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(62) GG) =PV < =PuX+tsy=P(x<*=)-p(i=) 


Pokazuje se, također, da vrijedi 


E[Y] = ElaX +6] = aE[X] +, 


VIY] = VlaX +6] = a?V[X]. 


Ako je X kontinuirana s.v. s pripadnom f.g.v. f, onda je Y = aX + također 
kontinuirana s.v. s pripadnom funkcijom gustoće vjerojatnosti 


(65) W= of e 3 | 


|a| a 


Ako još X — N(pu,o?), onda Y = aY +b — N(au+b,a?a?), tj. afinom trans- 
formacijom normalne razdiobe dobiva se opet normalna razdioba. 

Ako X — U(0,1), onda je Y = aX +b kontinuirana s.v. kojoj pripada jednolika 
(uniformna) razdioba nad tntervalom (ao,bo), gdjejeao=bibo=a+b,zaa>0, 
azaa<0jeao=a+bibo =D. Piše se Y — U(ag,bo) i tada je 


0, zay<aoiy>bo 
(66) g(y) = l 
bg — dg 


, Zaao<y<b, 


(67) EY] = slao +bo), VIYI= zo (be ao 


Pretpostavi li se, pak, da X — N(u,o?) i da je Y = exp(.X), tj. da se X 
podvrgava eksponencijalnoj transformaciji, pokazuje se da je Y kontinuirana s.v. s 
pripadnom funkcijom gustoće vjerojatnosti 


0, zay<0 


2 
(68) g(y) = l l/lny-u 
ole 0. 
VE V2m > o Ke 


Vjerojatnosna razdioba koju karakterizira (68) zove se lognormalna razdioba s 
parametrima u 1 a“. Piše se Y < LN(u, 07). 


s 
PA 


exp(a2/2 — HK) 


SV2Tm 


exp(u— 4?) 


Slika 13. Skica krivulje lognormalne razdiobe 
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Osnovni parametri lognormalne razdiobe izraženi su formulama 


(69) E[Y] = exp £ + 7) , VIY] = exp(2u + o?)[exp(a*) — 1]. 


Očigledno je da se lognormalna razdioba, slično kao i gama-razdioba, može 
uzeti kao teorijski model za one praktične statističke fenomene gdje se kao rezultati 
mjerenja pojavljuju samo nenegativni realni brojevi. | 

Ako se u vezi sa s.v. X promotri s.v. Y = (X — c)*, gdje je c proizvoljan realan 
broj, onda se vidi da je 


E[Y] = E(X — o)*] = E((X — u) +(u— e)" =E(X —u)*]+(u-e)*, 
a iz toga odmah proizlazi da je 


(70) min E[X — 0)*] = EX — u)*] = VL]. 


Time je iskazano da je očekivani kvadrat udaljenosti s.v. X od nekoga realnog broja 


c minimalan onda ako je c = u = E[X] i jednak je upravo varijanci V[X] = o“. 


Relacija (70) teorijski je analogon relacije (4) iz II.1. 


Zadaci 


1. AkojeA=(q,...,ar)ipi = 7 (j=1,...,r), onda se govori o jednolikoj 
(uniformnoj) razdiobi na skupu A. 


a) Napišite formulu za pripadnu f.r.v. i skicirajte njezin graf ako je aj = j. 
b) Izvedite formule za E[LX], VLX], ki €. 
2. Napišite formulu za f.r.v. jednolike razdiobe nad intervalom (a,b) (a < b)i 


izvedite odgovarajuće formule za očekivanje, varijancu, koeficijent asimetrije 
1 koeficijent spljoštenosti. 


3. Dokažite da je: 

a) EX —-u]=0u=EX], 

b) _E[(X — u)*] = ELX*] — (ELX])*. 
4. Izvedite formulu 


k 


Hk = »_(-1)*- (0) Bea k = 0, b2, dii 


i=1 


gdje je u centralni, a By ishodišni moment k-tog reda. 


5. Dokažite da za binomnu razdiobu B(r,p) vrijedi rekurzivna formula 


r—j+1 | 
zak ma m A M Ren 


Die ' 
J I =p 


IV. 


11. 


12. 


13. 
14. 
15. 
16. 
17. 
18. 
LJ. 


Zadaci 


. Izvedite formule (17)-(21). 
Dokažite da za Poissonovu razdiobu Po(A) vrijedi rekurzivna formula 


A 
Pi jPi-v JE U odseta 


Izvedite formule (23)-(25). 


. Izvedite formule (27). 
10. 


Dokažite Čebiševljevu nejednakost za: 
a) diskretnu s.v., 
b) kontinuiranu s.v. 


Dokažite da za kontinuiranu s.v. X vrijedi 


min E[[X — el] = EX — MI, 
ceR 


gdje je M pripadni medijan. 

Izvedite formule za ishodišne i centralne momente: 
a) normalne razdiobe N(4, 0“), 

b) eksponencijalne razdiobe Ex(a). 

Izvedite formule (48) oslanjajući se na formulu (44). 
Dokažite valjanost formula (48)-(51). 

Izvedite formule (55). 

Izvedite formule (61). 

Dokažite valjanost formula (63) i (64). 

Izvedite relaciju (70). 

Izvedite formulu za medijan: 

a) normalne razdiobe N(u, o“), 

b) eksponencijalne razdiobe Ex(a), 

c) uniformne razdiobe U(a,b). 
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V. Teorijska interpretacija 
višedimenzionalnih 
statističkih obilježja 


1. Dvodimenzionalna raždioba vjerojatnosti 


Kao što su u IV. poglavlju prikazani elementi matematičke teorije koja 
objašnjava različite fenomene u vezi s jednodimenzionalnim statističkim obilježjima, 
sada će se, analogno tome najprije prikazati elementi matematičke teorije koja 
objašnjava fenomene u vezi s dvodimenzionalnim statističkim obilježjima, a za- 
tim će se navesti i određeni pojmovi i metode teorije višedimenzionalnih slučajnih 
varijabli. Teorija višedimenzionalnih s. v:, kao što je već uočeno kod jednodimen- 
zionalnih s.v., temelji se na spoznaji da se, pri simultanom mjerenju dviju ili više 
različitih veličina (statističkih obilježja) i 1 mnogostrukom ponavljanju tih mjerenja, 
dobivaju brojčani rezultati u kojima se uočavaju određene statističke zakonitosti. 
Matematički model za apstraktno teorijsko opisivanje takvih pojava zove se slučajni 
vektor (s.vk.), čije komponente su slučajne varijable. 

Ako se simultano promatraju dva, statistička obilježja, onda se govori o 
slučajnom vektoru (.X, Y), čije su kompanente S.v. X1iY. 

Pri empirijskim razmatranjima u III. poglavlju govorilo se o dvodimenzionalnoj 
razdiobi relativnih frekvencija, dok će se u matematičkoj teoriji govoriti o dvodi- 


menzionalnoj razdiobi vjerojatnosti. Tako se za s.vk. (X, Y) pripadna f.r.v. definira 
formulom 


(1) F(z,y) = P(X < g, Y<y), z yeR. 


To Je, dakle, realna funkcija dviju realnih varijabli i F(z, y) je realan broj koji 
označuje ičorijsku Vjerojatnost da se, pri simultanom mjerenju slučajnih varijabli 


AK; dobije za AX vrijednost koja ne premašuje broj z i za Y vrijednost koja ne 
premašuje broj y. 


Lako se uviđa da vrijedi 


5) aa <A <nmy<Y <m)= F(29,y2) — F(z2a,yi)— F(zi,y2) + Fizi, 91). 


Funkcija z > rilt)= F(z 00) =PxX< z),z € R, zove se marginalna f.r.v. 
omponente X, a funkcija y > F(y) = F(oo,y)= P(Y <y), y ER, zove se 
marginalna f.r.v. komponente M: 


Marginalne Vjerojatnosne razdiobe teorijski opisuju statističko ponašanje svake 
slučajne varijable XY | Y posebno. 


jeka > __—_ oo o. 
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Ako vrijedi F(z,y) = Fi(z)F2(y), za sve z,y € R, onda se kaže da su X 1 Y 


stohastički nezavisne sS.v. 


Radi jednostavnosti pisanja i govorenja, umjesto stohastički nezavisne obično 
se piše i govori samo nezavisne s.v. 

Ako su X i Y nezavisne s.v., onda njihovo simultano proučavanje ne daje 
nikakve nove informacije s obzirom na zasebno proučavanje svake od njih. 


2. Diskretna dvodimenzionalna razdioba 
vjerojatnosti 


Nekasu A = fai,...,a,)iB=(b,...,bs) zadani diskretni skupovi (može biti 


: 
ir=ovis=oo)realnih brojevaip;; > 0 (Ef zadani brojevi. Broj pij 
X,Y 


lj=i 
interpretira se kao vjerojatnost da s.vk. ( ) poprimi vrijednost (a;,bj) € Ax B. 
Piše se 


(6) njsPAsae;vEb), rel jase: 55; 


i govori da je (X, Y) diskretni s.vk. sa skupom vrijednosti A x B i pripadnim vjero- 
jatnostima pij. Kaže se još da slučajnom vektoru (X, Y) pripada diskretna dvodi- 
menzionalna vjerojatnosna razdioba zadana formulom (6). To je matematički model 
za diskretno dvodimenzionalno statističko obilježje razmotreno u III. poglavlju. 
Umjesto empirijskih relativnih frekvencija ovdje se pojavljuju apstraktne teorijske 
veličine — vjerojatnosti pij. 


Uzme li se, na primjer, A= B=(0,1,...,m) (m € N) i stavi 


0, zat+j > m 


' m! * mm 
O) o pj=PX=i,Y=j)=1 sr umiPall > Pi— Po), 
ij(m—i—j)! 


zat+j<m, 


gdje su pi i p2 (Pi > 0, p2 > 0, pi +p2 < 1) zadani parametri, onda se kaže 
da diskretni s.vk. (X,Y) ima trinomnu razdiobu B(m,pi,p2) s parametrima m, 
Pilp2zipiše (X,Y) = B(m,pi,p2). - Trinomna razdioba u određenom je smislu 
generalizacija binomne razdiobe razmotrene u IV.3. 


Marginalne razdiobe diskretnog s.vk. (.X,Y) također su diskretne razdiobe. 
Tako komponenta .X ima diskretnu vjerojatnosnu razdiobu sa skupom vrijednosti 
A1 pripadnim vjerojatnostima 


(8) pr PoGem)j=> P= les 
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a komponenta Y ima diskretnu vjerojatnosnu razdiobu sa skupom vrijednosti B i 
pripadnim vjerojatnostima 
: 
b ) = >. Pos j= | be. 


(9) g=roeE 
i=1 
Uvjet nezavisnosti slučajnih varijabli X i Y sada glasi 


(10) Dij = PD: Qj, t=T Jezik 8 


Budući da su marginalne razdiobe jednodimenzionalne vjerojatnosne razdiobe, 
mogu se definirati parametri 


r 
= (a: > Mi)*pi, 
ič1 


i=1 
M = E[Y] = 9_ bjaj, gs — VIY] = »_(b; == 42)*qj. 
ij=1 j=1 


Može se pokazati (v. zad. 3) da iz (X,Y) > B(m,pi,p2) proizlazi da 
X < B(m,pi) i Y > B(m,p2), tj. da su marginalne razdiobe u trinomnoj raz- 
diobi, binomne razdiobe. Iz toga slijedi da je ELX] = mpi, EY] = mp2, 
VIX| = mpi(l—pi) i VIY] = mpo(1 — p2). 


Ako je u danoj diskretnoj dvodimenzionalnoj razdiobi vjerojatnosti qj > 0, 
onda se može definirati jednodimenzionalna diskretna vjerojatnosna razdioba sa 
skupom vrijednosti A i pripadnim vjerojatnostima 


(11) pijj= sb, i=1,...,7, 
qj 
koja se zove uvjetna razdioba vjerojatnosti komponente X uz fiksiranu vrijed- 


nost bj komponente Y. Veličina definirana formulom 


r 


(12) E[X/b;]= )_aipi/j 


i=1 


zove se uvjetno očekivanje komponente X uz fiksiranu vrijednost bj komponente 


a 

Zamjenom uloga komponenti X i Y i polazeći od pj > 0, može se definirati 
jednodimenzionalna diskretna vjerojatnosna razdioba sa skupom vrijednosti B i 
pripadnim vjerojatnostima 


Dij : , 
(19) nnk=t= 1 kas 


koja se zove uvjetna razdioba komponente Y uz fiksiranu vrijednost a; komponente 
X. Veličina definirana formulom 


(14) E[Y/a;| = S dj/i 


i1=1l 
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zove se uvjetno očekivanje komponente Y uz fiksiranu vrijednost a; komponente X. 
Za trinomnu razdiobu B(m,pi,p2), na primjer, uvjetne razdiobe su bi- 
nomne razdiobe. Tako je uvjetna razdioba komponente X uz fiksirano j (j € 


(0,1,...,m)) binomna razdioba (m —J, 2) iz čega proizlazi da je odgo- 
— P2 


l 

varajuće uvjetno očekivanje E[X/j] = (m —j) 

dioba B m —21, do 
l — Pi . « 

komponente X, pa je pripadno uvjetno očekivanje E[Y/:] = (m — 2) 


Analogno je binomna raz- 


uvjetna razdioba komponente Y uz fiksiranu vrijednost + 
P2 


—M 


3. Kontinuirana dvodimenzionalna razdioba 
vjerojatnosti | 


Na temelju analogije s jednodimenzionalnom kontinuiranom vjerojatnosnom 
razdiobom (IV.1.iIV.4) izgrađuje se i matematički model za kontinuirano dvodi- 
menzionalno statističko obilježje. Govori se o kontinuiranome slučajnom vektoru 
(X,Y) sa zadnom JULIO gustoće vjerojatnosti (2,9) > f(z,9), (z,y) € R“, 


pri čemu vrijedi 7 fa f(z,y) dz dy = = 1, kao o teorijskom pojmu kojim se 
—oo — 00 
tumače stvarni fenomeni pri simultanom mjerenju dvaju kontinuiranih statističkih 


obilježaja X 1 Y. 


Odgovarajuća f.r.v. može se zapisati u obliku 


(15) (2,v) = [ [100 )dudv, (z,y) ER“, 


pa se vidi da vrijedi 
02F(z,y) 
(16) | NIje f(2,9), 


što za broj f(z,y) opravdava naziv gustoća vjerojatnosti u točki (zr, y) € R?. 
Ako je S C R*, onda se vjerojatnost da kontinuirani s.vk. (X,Y) poprimi 
vrijednost iz zadanog skupa S može izraziti formulom 


(17) P(S) = P(Y) € S) = |] Kag)dady 
| (5) 
tj. dobiva se integriranjem gustoća de oi po skupu S. 


Graf f.g.v. f, tj. skup ((z,y,2) E R? = f(z,y), (z,9) € R*), općenito će 
predstavljati neku plohu u prostoru. Ona se zove ploha razdiobe. 


Najvažnija teorijska kontinuirana dvodimenzionalna razdioba vjerojatnosti je 
dvodimenzionalna normalna (Gaussova) razdioba s parametrima Mi, M2, gi, 05 1p 
(1 > 0,02 > 0,0 < |p| < 1). Piše se (X,Y) = N(11,12,01,02,p) i govori da s.vk. 
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Slika 14. Skica plohe razdiobe 


(X, Y') ima normalnu razdiobu s navedenim parametrima, ako pripadna f.g.v. glasi 


(18) f(2,9) = K expl-Q(2,9)], 
gdje je ' 
(19) K 


= 2Irojovv/1—p2 
1 #zdy\“ 9 (z— my 12) | (zaj 
di 2(1-p?) F1 : pe 102 a2 | 


K je, dakle, određena konstanta, ovisna o parametrima 4,, 92 1 o, dok je Q(z,V) 
pozitivno definitna kvadratna forma u varijablama z i y. Graf funkcije (18) zvono- 
lika je ploha, čiji su presjeci s ravninama z=c(0<c< K) elipse S jednadžbom 
oblika Q(z,y) = c. Elipse imaju zajedničko središte u točki (M1, 42) i toj točki 
pripada najveća gustoća vjerojatnosti f(mi,m2) = A, dok se udaljavanjem od te 
točke gustoća vjerojatnosti smanjuje. 


Ako je (X, Y) kontinuirani s.vk., onda su pripadne marginalne razdiobe također 
kontinuirane vjerojatnosne razdiobe i komponenti X pripada funkcija gustoće vjero- 
jatnosti 


(21) hle)= | flawdu zeR | 
a komponenti Y funkcija gustoće vjerojatnosti 
(22) holy) = / f(2,v) dr, yER. 


. < a nn o NN — 
o _—a—a 
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Nadalje je 

(23) Hi =EA| = I zfi(r)dz, of = VLX] = / (z—m)fi(z)dz, 

(24) m=El]= J yfe(y)dy, o2 = VlY] = [a — #2)“ fe(y) dy. 


U vjet nezavisnosti slučajnih varijabli X 1 Y sada se može zapisati u obliku 
(25) JI(z,y9) = fi(2)f2(9), (2,9) = R“. 


Pokazuje se da iz (X,Y) > N(pti,u2,0?,02,p) proizlazi da X > N(ui,of) i da 
Y — N(p2,02), što znači da je ELX] = s, VIX] = of, E[Y] = mi VIY] = o. Za 
p=0vrijedi f(z,y) = fi(z)f2(9), tj. tada su X i Y nezavisne slučajne varijable. 


Ako je u dvodimenzionalnoj kontinuiranoj vjerojatnosnoj razdiobi f2(y) > 0, 
onda se jednodimenzionalna kontinuirana razdioba sa funkcijom gustoće vjerojat- 
nosti definiranom formulom 


s = 00) . 
a e 


zove uvjetna razdioba vjerojatnosti komponente X uz fiksiranu vrijednost y kompo- 
nente Y. Veličina definirana formulom 


(27) EQX/yl= | ap(e)ds, 


zove se uvjetno očekivanje komponente X uz fiksiranu vrijednost y komponente Y. 
Analogno se definiraju veličine 


(28) uy =55. veR 
(29) EO/el= | vaz(y) dy. 


Tako se, na primjer, može pokazati (v. zad. 9) da je uvjetna razdioba kompo- 
nente X za fiksiranu vrijednost y komponente Y u dvodimenzionalnoj normalnoj 


razdiobi N(ft1, #42, 01,02, p) normalna razdioba N(pu4 dpi (=). o2(1—p*)), tako 
o A NEE : 
daje E[X/y] = i + p—(y — 142), dok je uvjetna razdioba komponente Y za fiksira- 
sg 02 
nu vrijednost z komponente X normalna razdioba N(pu2 + p2(z —m),ož(l-p")), 
O, 


što znači da je E[Y/a] = uo + p2(a = Mi 
Ji 
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4. Korelacija 


Stavi li se ELXY] = 3/ X diajPij za diskretnu, odnosno 


s E sd da e . . Ž 
ELXY]= [ [ =yf(z,y)dzdy za kontinuiranu dvodimenzionalnu vjerojatnosnu 
— 00 —o09 : 


razdiobu, može se reći da je ELXY] očekivanje produkta slučajnih varijabli X 1 Y. 
Ako su X i Y nezavisne s.v., onda je ELXY] = ELXJE[Y]. Općenito se parametar 
Mia ili Cov(.X,Y), definiran formulom 


(30) ii e Cov(X,Y) = E[XY] — ELX]JE[Y], 


zove korelacijski moment ili kovarijanca slučajnih varijabli X 1Y. 


Ako je Mir = 0, onda se kaže da su X i Y nekorelirane s.v. Nezavisne s.v. 
su, dakako, i nekorelirane, ali obratno općenito ne vrijedi. 


Ako je VLX] > 0 i V[Y] > 0, onda se parametar 


M11 
(31) NEE 


C102 


zove koeficijent korelacije slučajnih varijabli A Im: 


Može se dokazati (v. zad. 10c) daje p% < 11 posl onda i samo onda ako 
između slučajnih m X iY postoji funkcijska ovisnost oblika AX+BY nE 0 
(A Ž0i B #0). Značenje teorijskog koeficijenta korelacije definiranog u (31) slično 
je značenju empirijskog koeficijenta korelacije koje je opisano u 11.9. 

Pojam uvjetnog očekivanja, definiran u (12) L(14) za diskretnu, a u (27) 1 
(29) za kontinuiranu dvodimenzionalnu razdiobu vjerojatnosti, omogućuje da se 
definiraju funkcije regresije 


(32) => E[Y/2), yu E[X/g]. 


Funkcija z > E[Y/2] pokazuje ovisnost uvjetnog očekivanja komponente Y o vri- 
jednosti z komponente X, a slično značenje ima i druga funkcija regresije. 

Graf funkcije regresije zove se krivulja regresije. —— i 

Ako je riječ o nezavisnim slučajnim varijablama A 1 Y, onda uvjetna razdioba 
jedne komponente ne ovisi o odabranoj vrijednosti druge komponente i jednaka je 
odgovarajućoj marginalnoj razdiobi (v. zad. 11), tako da je tada ElY/z] = E(Y]i 
ELX/y] = ELX], što znači da su funkcije regresije konstante. Krivulje regresije su 
tada pravci usporedni s koordinatnim osima, koji se sijeku u točki (M1, M2) i. 

Pravci koji, u smislu metode najmanjih kvadrata, najbolje aproksimiraju 
krivulje regresije zovu se pravci regresije. Njihove su jednadžbe 


: K11 
(33) u-m="z-m) z-m= EZ ly-m), 
241 o 
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iz čega se vidi da se oni sijeku u točki (piy, 1u2), a za kut o između njih vrijedi 


1+ p? 0102 
34 tgp = =. 
(34) 5P : a7 +0? 


Za p? = 1 pravci regresije se međusobno poklapaju i tada se, kaže da je dvodi- 
menzionalna razdioba vjerojatnosti degenerirana, t). radi se zapravo o razdiobi vjero- 


' 02 
jatnosti na pravcu y— = —(z—). 
oj 


Iz (31) se vidi da su X i Y, za p = 0, nekorelirane s.v., a iz (33) i (34) se 
razabire da su tada pravci regresije međusobno okomiti i usporedni s koordinatnim 
osima. 


Za trimomnu razdiobu B(m,pi,p2), na primjer, funkcije regresije su 


(35) i> EY/]=—P>(m-i), i=0,1,... 
l—pi 


; (m—j), 3=0,1,...,m. 
2 


(36) j> EDX/jl= 


Budući da je riječ o diskretnoj vjerojatnosnoj razdiobi, krivulje regresije sastoje 
se iz diskretnog skupa točaka koje pripadaju istom pravcu. Prema tome, pravci 
regresije imaju jednadžbe | 


p2 Pi 
31 yv= —>(m—z) z= m — y). 
(37) beim -2), s= p2(m-y) 
Korelacijski je moment /tj1 E —Mmpip2, a odgovarajući koeficijent korelacije 
p=- pa. pm pa se vidi dase, zapi +p2 = 1, dobiva p = — 1, što znači 


(1=Pr)(l:= po) 
daje dvodimenzionalana vjerojatnosna razdioba degenerirala u jednodimenzionalnu 
vjerojatnosnu razdiobu duž pravca z +y = m. 
Za dvodimenzionalnu normalnu razdiobu N(/ti, 12, 07,02, p) korelacijski je mo- 


ment tj = poi02, tako da parametar p ima značenje koeficijenta korelacije. Pravci 
m o ' do : as 2» 
regresije y— 2 = p—(z — Mi)iz-Mi = p—(y— 2) ujedno su i krivulje regresije, 
09 01 


tako da je ovdje riječ o linearnoj regresiji. Sada nekoreliranost (p = 0) implicira i 
nezavisnost s.v. X 1 Y, pa se može reći da su nezavisnost i nekoreliranost u dvodi- 
menzionalnoj normalnoj razdiobi ekvivalentna svojstva, dok općenito nisu. 


5. Višedimenzionalna razdioba vjerojatnosti 


Matematički model za simultano promatranje n (n > 2) statističkih obilježja 


je slučajni vektor (X1,..., Xn), čije komponente su s.v. X1,...,Xn. Svaki rezul- 
tat simultanog mjerenja n veličina uređena je n-torka (Z1,...,Zn) € R", koja se 
zove vrijednost slučajnog vektora (X1,..., Xn). Statistička zakonitost izražava se 


odgovarajućom funkcijom razdiobe vjerojatnosti na skupu R“", koja se definira for- 
mulom | 


(38) Pine boj POTE TE SA ET; Eros Br rs RE 
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pa se govori da je formulom (38) definirana f.r.v. slučajnog vektora (X1,...,Xn). 
To je realna funkcija n realnih varijabli i i broj F(Zi,...,Tn) označava teorijsku 
vjerojatnost da se pri simultanom mjerenju slučajnih varijabli X1,..., AXn dobije za 
Xi vrijednost koja ne premašuje realni broj z1, za X» vrijednost koja ne premašuje 
L9 itd. 

Funkcija 2; > M(rg) = F(09,..,,00,24,00,...,00) = POAcE 8) Gee R, 
jest f.r.v. jednodimenzionalne razdiobe vjerojatnosti koja se zove marginalna raz- 
dioba vjerojatnosti komponente X; (t=1,...,n). Ona opisuje statističko ponašanje 
(zakonitost) s.v. X; same za sebe. 

Ako vrijedi 


(39) oo ame m Fi(zi):.. Fa(žn), 
za svako (zi,...,Zn) € R", onda se kaže da su X1,..., X nezavisne slučajne 
varijable. | 


Uređena n-torka (pt1,..., kn) E R7, gdjeje ui = ELKG] (i=1,...,n), zove se 
vektor očekivanja Jača moe vektora (Xi,...,Xn), odnosno središte n-dimenzio- 
nalne razdiobe vjerojatnosti. | 

Ako je n > 2 onda se mogu mmm 1 marginalne dvodimenzionine razdiobe 
vjerojatnosti danoga slučajnog vektora (X,,...,Xn). Uzme li se, naime, € < j 
(23 =1,...,n) i definira funkcija 


(40) Pije 0) = F(o9,. 
= P(Xi <tAj <zj), (qi,z jj ER“, 


OG E OO GS OO LE TOG ao GOJE 


vidi se da je to f.r.v. slučajnog vektora (.X;,X;). To omogućuje da se definira 
kvadratna matrica 5, čiji su elementi 


(41) Vi — ELX;AX;] za: E[X:] ELK; ], IJ —_ 1, +...) 0, 
i koja se zove kovarijanena ili disperzijska maria To je simetrična matrica 
koja za dijagonalne elemente ima varijance gi; = 07 = VLK] (i=1,...,n), dok su 
izvandijagonalni elementi Roo Oj KOVA nA EI. NE lijesa BJ 
Ako je g; > 0 (i =1,...,n), onda še može definirati i kvadratna matrica P s 
elementima | 

gasi 
(42) Pij = < 3) IJ U jiasti 

0;0). 


koja se zove korelacijska matrica. Dijagonalni elementi su jedinice (p;; = 1), a iz- 
vandijagonalni element pij (tE) e koeficijent korelacije slučajnih varijabli 
A GLE 


Korelačiska matrica također je simetrična matrica 1 vrijedi 


O 
det P= ————— det 2, 
04 Be ... * 0, 
tako da korelacijska i kovarijancna matrica imaju isti rang r ("< n), pa se govori 
da n-dimenzionalna vjerojatnosna razilioba ima rang r. 


Ako jer < n, kaže se da je n- dimjenzionalna vjerojatnosna razdioba degeneri- 
rana. 


Akosu Xi,..., X, nezavisne s.v. , onda je kovarijancna matrica dijagonalna, a 
korelacijska matrica jedinična matrica. Ako j je, pak, 2 dijagonalna matrica, onda 
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se kaže da su X1,..., X, nekorelirane slučajne varijable. Nezavisne slučajne 
varijable su, dakle, nekorelirane, dok obratno općenito ne vrijedi. 

Najvažniji primjer teorijskog modela n-dimenzionalne vjerojatnosne razdiobe 
je normalna (Gaussova) n-dimenzionalna razdioba. Kaže se da s.vk. 
(X1,..., Xn) ima normalnu razdiobu s vektorom očekivanja u = (Mi,..., in) E R" 
i kovarijancnom matricom 2 (5 je regularna i pozitivno definitna) i piše se 
(X1,...,Xn) = N(u, 2), ako se pripadna f.r.v. može zapisati u obliku 


(43) A GE J mE rime 
gdje je 
(44) flies hjaKen=Qii eto ia tHjE RS 
(45) K = (2rdet 2)", 
(46) Q(ti, . =2) “. Alle — ul či Mj), 

ŽizI Ss 


a Aij su elementi matrice A = 2! (27 je inverzna matrica od 5). Formulom 
(44) definirana je f.g.v. n-dimenzionalne normalne razdiobe N(pu, 2). Formulom 
(46) definirana je, pak, određena pozitivno definitna kvadratna forma u varijablama 
aa to 

Može se dokazati (v. [6]) da komponenti X; pripada marginalna razdioba 
N(;,9?) (= 1,...,n), iz čega slijedi da će X,,..., X, biti nezavisne s.v. onda 
i samo onda ako je &, pa dakle 1 A, dijagonalna matrica, tj. ako su X1,..., An 
nekorelirane slučajne varijable. 


6. Funkcije više slučajnih varijabli 


Akoje(zi,...,;Zn) > h(Zi,...,Zn) određena realna funkcija n (n > 2) realnih 
varijabli iakoje (X4,...,X,) zadani slučajni vektor, onda je Y = h(.X,,..., Xn) 
s.v. za koju se kaže da je funkcija slučajnog vektora (X1,..., Kn). 

Ako je, na primjer, _(zi,...,Tn) =aiti+...+anFn,gdjesuaj,...,an zadani 
realni brojevi (koeficijenti), onda se kaže daje Y =a1X1+...+4a,X, linearna 
kombinacija slučajnih varijabli X1,..., Xu. Može se dokazati (v. zad. 16) da vrijedi 


(47) E[Y] = E[ay.X, ta dn Kn] — ar E[X1] +... an E[X,], 


n n 
= ) ) Q;dQj0ij. 


DEVJEU 


(48) V[Y] = VlarXi Soze (dA) 


Iz formule (47) vidi se da je očekivanje linearne kombinacije slučajnih varijabli 
Jednako linearnoj kombinaciji očekivanja komponenata, dok se iz (48) razabire da 


ži 
&: 
kg 
ES 
BH 
zd 
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je varijanca linearne kombinacije slučajnih varijabli jednaka linearnoj kombinaciji 
elemenata kovarijancne matrice zadanoga slučajnog vektora. 


Ako su A1,..-)Xh nekorelirane slučajne varijable, onda (48) postaje 


(49) VlaiXi+...+a,Xn]=ažVLXiJ+...+a2VLX,], 


tj. tada je varijanca linearne kombinacije s.v. jednaka linearnoj kombinaciji varijanci 
komponenata s kvadriranim koeficijentima. 

Glavni i najteži problemi u vezi s funkcijama slučajnih varijabli sastoje se 
u određivanju vjerojatnosne razdiobe slučajne varijable Y = h(X1,...,Xn) uz 
zadanu funkciju h i vjerojatnosnu razdiobu slučajnog vektora (X1,..., Xn). 

Budući da se velik dio teorije statističkog zaključivanja (treći dio ove knjige) 
temelji baš na rješenjima spomenutih problema, čije izlaganje prelazi zamišljene 
okvire ove knjige, ovdje će se navesti neki najvažniji rezultati. Svi navedeni rezultati 
vrijede uz zajedničku pretpostavku du su NXi,..., Xn nezavisne slučajne varijable 
i to se u nastavku više neće isticati. 


1. Ako Xi > N(pti,07),i=1,...,njondaY =aX1+...+anXn = N(u,a?), 


gdje je K=4Mi+...+anhin 1 o = ažo? +...+ažo? 


n nj 


Pojednostavnjeno, može se reći da je linearna kombinacija nezavisnih normal- 
nih slučajnih varijabla također normalna s.v. 


2. Ako X; + B(m,,p), i = l,...,n,ondaY=X1+...+ X, = B(m,p), gdje je 


m=Mima sme, 


To znači da je zbroj nezavisnih binomnih slučajnih varijabli zajedničkog 
parametra p također binomna s.v. 


3. Ako AG > Po(A;), i =1,...n, onda Y = Xi+...+ X, = Po(A), gdje je 


AzAli+... HA. 


Zbroj nezavisnih Poissonovih slučajnih varijabli također je Poissonova slučajna 
varijabla. 


4. Ako G= G(a,B,),i=1,. on onda Y=X1+...+MX =G(a,B), gdje je 
P=Bi+...+8,. Posebno, ako X; = G(a,1) = Ex(a), onda Y = G(a,n). 
i 1 
Ako, pak, X; e G (55) - X“ (ng) (n; € N), onda Y > G (3.3 
- X“(n), gljejen=ni+...+ Nan. 


Može se, dakle, reći da Je zbroj n nezavisnih eksponencijalnih slučajnih vari- 
jabli zajedničkog parametra a s.v. gama-razdiobe G(a,n), dok je zbroj nezavisnih 
slučajnih varijabli hikvadrat-razdiobe također s.v. hikvadrat-razdiobe. 
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5. Ako X; = N(0,1),i=1,...,n, onda =X2+...+ X? > X?*(n). 


To pokazuje da zbroj kvadrata n nezavisnih standardnih normalnih slučajnih ' 


varijabli ima hikvadrat-razdiobu sa n stupnjeva slobode. 


6. Ako su X i Y nezavisne s.v. i obje imaju eksponencijalnu razdiobu Ex(a), 
onda s.v. Z = X — Y ima tzv. Laplaceovu ili dvostruko eksponencijalnu 
razdiobu parametra a (a > 0). 


Pripadna f.g.v. glasi 


4 
2 
, ' 2 
a pokazuje se da je E[Z] =0 i V[Z] = —. 


Slika 15. Skica krivulje Laplaceave razdiobe 


7. Ako su X i Y nezavisne s.v., X ps N(0,1) 1 Y = X*(n), onda slučajnoj 


varijabli Z = X s pripada tzv. Studentova razdioba ili t-razdioba sa 


n stupnjeva slobode, što se piše Z + t(n). 


Pripadna f.g.v. glasi 


Žan = 1 dobiva se tzv. Cauchyjeva razilioba koja je zanimljiva zbog toga što nema 
konačno očekivanje, pa ni bilo koji moment višeg reda. Za Studentovu razdiobu 
t(n) najvažniji parametri izraženi su formulama 


FZ] =0, :zan > 1, 
V[Z] = , 


n> 2 


za n > 2. 


grdia- 


tf + 
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Krivulja Studentove razdiobe slična je krivulji normalne razdiobe N(0, 92) (v. sl. 
22. u VIII.6). 


8. Ako su X i Y nezavisne s.v.i X e X“(r),a Y = X*(s) (r,s € N), onda s.v. 


Va 5 ima tzv. F-razdiobu sa (r, 5) stupnjeva slobode. 
r 


Piše se Z — F(r,s), a pripadna 1.g.v. glasi 


Slika 16. Skica tipične krivulje F-razdiobe 


Očekivanje postoji za s > 2, a varijanca za s > 41 vrijedi 


S 2g2(r+s—2 
E[Z] = vil Zs. 


9. Ako su Xi,...,.Xn nezavisne s.v. sa zajedničkom 1. r. v. F', onda slučajnoj 
varijabli Y = max(X1,..., Xx) pripada funkcija razdiobe vjerojatnosti 


(50) Gy) =PY<y)=(Fg)", veR, 
a slučajnoj varijabli Z = min(Xi,...,Xn) pripada funkcija razdiobe vjero- 
jatnosti 


(51) H(z)= P(Z < z) =: 


Jasno je da se slučajni vektor X = (NXi,..., Xn) može podvrći određenoj trans- 
formaciji (operatoru) tako da se kao rezultat opet dobije slučajni vektor, recimo 


Vina) 
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Posebno su važne linearne transformacije (linearni operatori), koje se mogu 
opisati odgovarajućim realnim matricama. Ako je, naime, A realna matrica tipa 
m x n (m je broj redaka, a n broj stupaca matrice A) i ako se vektori X i Y 
tretiraju kao jednoredne matrice (tipa I x n, odnosno 1 x m), onda se djelovanje 


: . SJENA a ' : Ti osa 2 TI 
linearne transformacije može izraziti matričnom jednadžbom Y = XA , gdje A 
označuje transponiranu matricu od A. 


10. Ako slučajni vektor X = (Xi,...,Xn) = N(u, 2) 1 Y = KA", gdje je A 


realna matrica tipa m x n, onda za slučajni vektor Y vrijedi 


(52) Y=(Y,...Yn) = NAT AZA). 


Zadaci 


1. Akoje A skup točaka ravnine (A C R“), čija površina iznosi a (a > 0) mjernih 
jedinica (recimo m“) i ako je funkcija f zadana formulom 


l 
leuj= a Pee 


0, za(z,y) ČA, 
onda se govori o jednolikoj (uniformnoj) razdiobi vjerojatnosti na skupu A. 
Napišite pripadnu f. r. v. ako je A jedinični kvadrat. 
2. Da li su X 1 Y nezavisne s.v. ako je riječ o uniformnoj razdiobi na: 
a) jediničnom kvadratu, 


b) jediničnom krugu, 
c) trokutu s vrhovima u točkama (0,0), (1,0) i (0,1)? 


3. Dokažite da su marginalne razdiobe za trinomnu razdiobu B(m,pi,p2) bi- 
nomne razdiobe B(m,pi) i B(m,p2). 


4. Dokažite da za veličine definirane u (11) 1 (13) vrijedi 


TENNET: 


il jal 
5. Dokažite da su uvjetne razdiobe za trinomnu razdiobu B(m, pi, p2) binomne 


razdiobe (m —J, s ) 1 (m i: E ) 
l— po E 


6. Dokažite da za funkcije fi i f2 definirane u (21) i (22) vrijedi 


| nede= | rao dy=1. 


T. Dokažite da iz F(x,y) = Fi(2)F2(9) proizlazi formula (25). 
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de) 


10. 


ll. 


12. 
13. 
14. 


15. 


16. 


17. 


18. 
19. 
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. Dokažite da za veličine definirane formulama (26) i (28) vrijedi 


. Dokažite da je uvjetna razdioba komponente X u dvodimenzionalnoj nor- 


O1 
malnoj razdiobi N(pt1,12,07,02,p) normalna razdioba N( pt + P7. — M2), 
oi(1—p?)). | 
Dokažite da za diskretne i kontinuirane s.v. X i Y vrijedi: 
a) ako su X i Y nezavisne, onda je ELXY] = ELXJE[Y], 
b) ako su X i Y nezavisne, onda su i nekorelirane s.v., 
c) p? < 1, gdje je p koeficijent korelacije. 
Dokažite da vrijedi: 
a) Pijj=q1 dj/i Z Pi, ako su X 1 Y nezavisne diskretne slučajne varijable, 


b) Py(2) = fi(2) 1 q2(9) 


slučajne varijable. 


= f2(y), ako su X i Y nezavisne kontinuirane 


Izvedite jednadžbe pravaca regresije izražene formulama (33) . 

Dokažite da za kut o između pravaca regresije vrijedi formula (34). 

Za trinomnu razdiobu izvedite formule za: 

a) vjerojatnosti uvjetnih razdioba, 

b) funkcije regresije. 

Za dvodimenzionalnu normalnu razdiobu izvedite formule za: 

a) uvjetne f.g.v., 

b) funkcije regresije. 

Dokažite da za diskretne i kontinuirane dvodimenzionalne vjerojatnosne raz- 

diobe vrijedi: 

a) ElaX +bY] = aELX] + bE[Y], 

b) V[aX +bY] = a*VLX] +02V[Y] + 2ab Cov(.X, Y ), gdje su a i b proizvoljni 
realni brojevi. 


Dokažite da je očekivanje Laplaceove razdiobe parametra a > 0 nula, a vari- 


janca st 
a 


Izvedite formule (50) i (51). 
Odredite konstantu c (c > 0) tako da vrijedi 
(a = 0,10; 0,05; 0,01) ako: 
a) X < N(0,1), b) X — U(—Y3,v3), c\X — t(1), 


d) X ima Laplaceovu razdiobu parametra a = V2. 


P(X[>e) =a 


Skicirajte u istom pravokutnome koordinatnom sustavu odgovarajuće krivulje 
razdiobe 1 zatim geometrijski interpretirajte dobivene rezultate. 


20. Odredite konstante cy i c» (Ci > 0,c2 > 0) tako da vrijedi P(X <q) 


21. 


22. 


23. 


24. 
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=PX>e)=7 (a = 0,10; 0,05; 0,01) ako: 

a) X — N(32,64), b) X — X2(20), c) X — F(5,8). 

Uputa: Poslužite se tabl. 3, 4. i 7. u Dodatku. 

Neka je (X,Y) slučajni vektor s kovarijancom Cov(,X,Y) i ao, a1, Bi 


Bi realni brojevi, te Xi = aX+aiY = BY +B. Dokažite da je 
Cov(X1,Y1) = 218; Cov(.X, Ve 


Neka je X =(X1,...,Xn) slučajni vektor s vektorom očekivanja 

EX] = (ELX:],. >E[X,]) i i kovarijancnom matricom 5 x, te 

A = oma g € R" 1 Y = X +2, gdje se X, Y i A tretiraju kao 
jednoredne matrice, a X +A kao Pi matrica. 

Dokažite da vrijedi: | 


a) EY] = ELX +2] = EX] +2, gdje je E[Y] vektor očekivanja slučajnog 
vektora Y,a E[X]i E[Y] također se tretiraju kao jednoredne matrice, 

b) Zyr= 2x, gdje je Fy kovarijancna matrica slučajnog vektora Y. 
Uputa: Primijenite formulu iz zad. 21. 

Neka je X = (X1,..., 


kovarijancnom matricom 5 x, te A realna matrica tibamxniY = X Al, 
Dokažite da vrijedi: 


a) E[Y] = 
b) Xy=AXYy A: gdje je Yy kovarijancna matrica slučajnog vektora Y. 
Dokažite da se formula (48) iz V.6. može zapisati u obliku V[Y] = V[a X] = 


= aXxa!, gdje se vektor a = (m ...,;4dn) € RV također tretira kao jed- 
fioredna Matea 


Xn) slučajni vektor s vektorom očekivanja E[X] i 


EX] A, gdje je E[Y] vektor očekivanja slučajnog vektora Y. 


sie 


ši 
| 
i 
i 
i 
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Pregled važnijih teorijskih razdioba vjerojatnosti 


Oznaka  Očekivanje 


B(m,p) 
me€N,O0<p<1 


a8 
(a+B8)"(a+8+1) 
sen 


TREĆI DIO 


TEORIJA STATISTIČKOG 
ŽZAKLJUČIVANJA 


Statistički fenomeni očituju se u statističkim podacima. Proučavanjem i anali- 
zom statističkih podataka onako kako je opisano u prvom dijelu došlo se do sinteze 
izražene u obliku teorije statističkih fenomena, ukratko prikazane u drugom di- 
jelu. Glavnim problemom matematičke statistike smatra se ipak kako, na temelju 
konačnog broja statističkih podataka, izvesti korektne zaključke o promatranome 
statističkom fenomenu. 

Općenito govoreći teorija statističkog zaključivanja proučava odnose između 
konačnog niza statističkih podataka i matematičkih modela izgrađenih u teoriji 
slučajnih varijabli. Istraživači statističkih pojava suočeni su sa zadatkom da otkri- 
vaju statističke zakonitosti i pripadne parametre na temelju konačnog niza po- 
dataka, dok je za potpuno određenje te zakonitosti redovito nužno beskonačno 
mnogo statističkih podataka. Govori se da se zaključci donose na temelju konačnog 
uzorka. Stoga zaključci neće imati apsolutnu sigurnost, već će se govoriti o 
određenoj pouzdanosti izvedenog zaključka. 

U teoriji statističkog zaključivanja izgrađuju se matematički modeli koji omo- 
gućuju egzaktno definiranje problema i njihovo rješavanje matematičkim meto- 
dama, a također i primjenu dobivenih rezultata u praktičnom životu i drugim 
znanstvenim disciplinama. Drugim riječima, za određene praktične situcije kon- 
struiraju se odgovarajući teorijsko-statistički modeli i zatim se pronalaze statističke 
metode kojima se postiže "zadovoljavajuće" rješenje. 

Opća je pretpostavka pri izgradnji svih teorijskih modela za statistička za- 
ključivanja da je dani niz Z£1,...,Zn statističkih podataka vrijednost određenoga 
slučajnog vektora (X1,..., Xn) = X. Osnovnu ulogu u izgradnji modela ima defini- 
ranje klase P svih dopuštenih vjerojatnosnih razdioba za slučajni vektor X. Svaki 
se, naime, problem statističkog zaključivanja svodi na pitanje što se može reći c 
vjerojatnosnoj razdiobi slučajnog vektora X _ na temelju danog vektora podataka 
z=(Z,,...,Zn) € R". Za definiranje klase P ne postoje egzaktni teorijski kriteri- 
Jl, već se to obično čini na temelju iskustva i intuicije. Ako se uzme preuska klasa F 
dopuštenih razdioba vjerojatnosti, onda postoji velika mogućnost da stvarna raz 
dioba vjerojatnosti ostane izvan te klase, tj. izvan modela, a ako se za P uzm: 
preširoka klasa, recimo klasa svih n-dimenzionalnih vjerojatnosnih razdioba, ond 
se praktički ništa ne može zaključiti o stvarnoj razdiobi P na temelju vektora pc 
dataka z. Stoga se usvajaju ona ograničenja na dopuštene vjerojatnosne razdiol: 
koja se temelje na prirodi promatranog problema, te iskustvu i intuiciji istraživač: 

Redovito se usvaja pretpostavka da su X1,..., X, nezavisne slučajne varijab. 
sa zajedničkom (jednodimenzionalnom) vjerojatnosnom razdiobom P. To odg: 
vara praktičnoj situaciji kada su z1,...,Zn nezavisna mjerenja slučajne varijab: 
A, kojoj pripada fr.v. F(z)= P(X <r),z € R, istraživaču redovito nepoznai: 
Drugim riječima, pretpostavlja se da je rezultat svakog mjerenja posljedica jed: 


amara 
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te iste statističke zakonitosti. Time je klasa P sužena na sve moguće jednodimen- 
zionalne vjerojatnosne razdiobe. No i to je, redovito, preširoka klasa dopuštenih 
razdioba. Stoga će se, na primjer, često klasa P definirati kao klasa svih mogućih 
normalnih razdioba, tj. uzimat će se da je P = (N(u,o") : u € R,co > 0), pa 
će pitanje glasiti: što se može reći o parametrima ui o na temelju danog niza 
podataka £1,...,Tn. 

Općenito, ako se klasa P svih dopuštenih vjerojatnosnih razdioba može opisati 
pomoću konačnog broja parametara, onda se govori o parametarskom modelu 
statističkog zaključivanja. 

Postoje određeni problemi statističkog zaključivanja, kao, na primjer, utvrđi- 
vanje nezavisnosti slučajnih varijabli X i Y na temelju niza mjerenja (Z1,91),..., 
(Zn, Vn), u kojima se ne može klasa P opisati na jednostavan način pomoću konač- 
nog broja parametara i tada se govori o neparametarskom modelu. 

Tipični su problemi statističkog zaključivanja problem procjene parametara, 
koji se sastoji u pronalaženju numeričke vrijednosti kojom se aproksimira nepoznati 
parametar pretpostavljene vjerojatnosne razdiobe 1 određuje točnost te aproksi- 
macije, te problem testiranja hipoteze u kojem se postavlja zadatak definiranja pos- 
tupka za donošenje odluke o prihvaćanju, odnosno odbacivanju, unaprijed istaknute 
hipoteze o razdiobi vjerojatnosti. 

Teorija statističkog zaključivanja zapravo se i sastoji od različitih modela i 
metoda koje su razvijene za rješavanje niza problema tipa procjene parametara i 
testiranja hipoteza, tako da se danas još ne može smatrati cjelovitom i konzistent- 
nom teorijom. 'To je relativno "mlada" teorija, koja se brzo razvija, ali u kojoj još 
uvijek postoje važna pitanja na koja nema zadovoljavajućih odgovora. 


TJ OT ROO OTT o o o vr Po O 


VI. Procjena parametara 


1. Uvod u problematiku 


Radi lakšeg razumijevanja problema procjene parametara i općih pojmova koji 
se u vezi s tim definiraju, razmotrit će se jedan tipičan primjer. 


1. primjer 


Da bi se procijenio nepoznati parametar p, koji označuje proporciju (100 p 
je postotak) neispravnih proizvoda u određenome tehnološkom procesu u kojem se 
masovno proizvodi neki proizvod, ispitat će se n proizvoda i zabilježiti niz podataka 
L1,...>Zn, gdje je 


Tra 1, ako je proizvod neispravan 
* 10, ako proizvod nije neispravan 


Prvi korak u rješavanju problema procjene nepoznatog parametra p svakako 
je definiranje postupka (funkcije) kojim se iz danih podataka izračunava numerička 
vrijednost procjene. Intuitivno se čini razumnim pretpostaviti da je aritmetička 
sredina dobivenih podataka | 


lo 
(1) Dr PE) 


dobra procjena za nepoznati parametar p. Vidi se, naime, da je Z zapravo relativna 
frekvencija, tj. proporcija neispravnihi proizvoda u nizu od n ispitanih proizvoda. 
No, odmah se nameće i zadatak da se egzaktnije utvrdi zašto je z dobra procjena za 
p i, ako je moguće, da se i kvantitativno izrazi "kvaliteta? te procjene. Trebalo bi, 
naime, ustanoviti kakva je greška kada se p aproksimira sa Z i kako bi se procjena 
(1) usporedila s nekom drugom procjenom za nepoznati parametar p. 

Da bi se dobili odgovori na ta pitanja, treba definirati odgovarajući teorijski 


model. U tu svrhu pretpostavlja se da je (Z1,...,Zn) vrijednost slučajnog vek- 
tora (X1,...,Xn), gdje su X1,..., Xp nezavisne s.v. sa zajedničkom binomnom 
(Bernoullijevom) razdiobom B(1,p), t]. vrijedi 

(2) PRAzS ls Pki=0)=1=7p i ljagogđk 


Pretpostavlja se, zapravo, da se proces proizvodnje u pogledu broja defektnih 
proizvoda pokorava statističkoj zakonitosti opisanoj binomnom razdiobom B(1, p). 
Time je definirana klasa dopuštenih vjerojatnosnih razdioba 


P= (B(lp):0<p21) 


o ___—_—;_. o co o oo Pa ica OP ža 


rme api 
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Empirijska veličina z može se tada shvatiti kao vrijednost slučajne varijable 


es. | 
(3) X=_(M+..+X,). 


Ako se, naime, zamisli višestruko ponavljanje ispitivanja serija od po n proizvoda 1 
za svaki dobiveni niz podataka izračuna odgovarajuća aritmetička sredina, onda će 
se dobivene empirijske vrijednosti F pokoravati teorijskoj vjerojatnosnoj razdiobi 
slučajne varijable .X. 

Slučajna varijabla X, kao funkcija si slučajnih varijabli K1,.:.,Xn, ima vjero- 
jatnosnu razdiobu ovisnu o nepoznatom parametru pi prirodnom broju n. Poznato 
je (v. IV.3. 1 V.6. točka 2) da u pretpostavljenome teorijskom modelu 
Kr+...+An = B(n,p), tako da je 


4 me. | 
(4) P(Z=2) = (ća -py, k=0,1.3: m: 


Formula (4) omogućuje da se teorijski spozna kako se vrijednosti £ ponašaju u 
odnosu na nepoznati parametar p. Iz (4) odmah proizlazi daje ELX] = p, što govori 
da su one raspršene oko p, kao svojega: matematičkog očekivanja. Najprirodnija 
mjera raspršenja svakako je varijanca (v. 11.3). Stoga se prirodno nameće ideja da 
se promotri funkcija | 


(5) p— Bio) = VEČI = zr -o), pe (0) 


koja omogućuje određeni uvid u točnost POPIO Ian nepoznatog parametra p 
vrijednošću g. : 


0 0,5 1 
Slika 1. Graf funkcije p t> . 


Budući da je V[X] = E(X =>) ], može se reći da R(p) > E[(X — p)*] pokazuje 
očekivanu kvadratnu grešku pri procjeni nepoznatog parametra p aritmetičkom 
sredinom z nuau podataka. Slika 1. pokazuje da je ta greška maksimalna za 

FE 


25 
P=0,51tada iznosi ——. To znači da pri procjeni nepoznatoga teorijskog parame- 


n 
tra p empirijskom vrijednošću z, dobivenom na temelju n nezavisnih mjerenja, 
0,25 


n 


očekivana kvadratna greška neće premašiti 


i 
i 
i 
L 
i 
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Općenito, ako je riječ o parametarskom modelu, onda se klasa P svih 
dopuštenih vjerojatnosnih razdioba može izraziti zapisom 
P=(P:t€0), 
gdje je O(O C R*) skup svih dopuštenih vrijednosti parametara pretpostavljene 
vjerojatnosne razdiobe. Za k=1 imamo jednoparametarski model, a za k>1 (k€N) 
višeparametarski model. P,(-+) će označivati vjerojatnost dotičnog događaja uz pret- 
postavku da parametar razdiobe ima konkretnu vrijednost t. 


Slučajni vektor (X1,..., Xn), čije su komponente nezavisne slučajne varijable sa 
zajedničkom vjerojatnosnom razdiobom Pe, tj. čija f.r.v. ima oblik 


(6) MD aj ERU ENE PAX <) (Pec EVER", 


zove se slučajni uzorak veličine n. 


Procjenitelj ili esturnator nepoznatog parametra t je s.v. J definirana kao 


određena funkcija slučajnog uzorka (X1,...,Xn). Piše se 


(7) T=MX,...,Xn), 


gdje je (Z1,...,Zn) > h(Z1,...,Zn) određena realna funkcija n realnih vari- 


jabli. 


Budući da je u matematičkoj statistici uobičajeno da se funkcija slučajnog 
uzorka zove statistika, može se reći da je procjenitelj određena statistika. 
Formulom (3) definiran je jedan procjenitelj parametra p u 1. primjeru. Jasno 


je da se mogu definirati i drugi procjenitelji za parametar p, različiti od onog u 
: ' md ' ke: g] 

(3). Može se, naime, uzeti neka druga statistika, recimo sA = Zn PR Ko) 

n 


proglasiti je procjeniteljem nepoznatog parametra p i zatim postaviti zadatak da 
se međusobno usporede procjenitelji X i —\/Y. Može se također postaviti zadatak 


da se u zadanom skupu procjenitelja pronađe, u određenom smislu, najbolji pro- 
cjenitelj za parametar p, o čemu će biti riječi kasnije. 

Općenito se problem rješava tako da se definira tzv. funkcija gubiika (loss 
function) (1,1) > L(4,t), čija se vrijednost L(t,t) € R može interpretirati kao gu- 
bitak ili trošak aproksimiranja nepoznatog parametra t, vrijednošću b procjenitelja 


,Zn. Odmah se vidi da je DT t), kao 


funkcija slučajne varijable T', također s.v., pa se može definirati funkcija 


JaA dobivene na temelju niza mjerenja zi, .. 


(8) i> RG) = E[L(T,t)],te 0, 


koja se zove funkcija rizika (risk function). Broj R(t) označuje očekivani gubitak 
(trošak, rizik) pri aproksimaciji parametra t vrijednošću 8 

Graf funkcije t > R(t) zove se operativna karakteristika procjenitelja T za danu 
funkciju gubitka 1. 


U 1. primjeru uzeli smo kao funkciju gubitka kvadrat razlike između vrijednosti 
u procjenitelja X i nepoznatog parametra p, tj. L(£,p) = (Z— p)*, dok je funkcija 
rizika izražena formulom (5), a operativna karakteristika prikazana je na sl. 1. 


nn oro i EEE o eO ae 


moon re 


ne sa i PATA 
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Primijetimo da se u teorijskom modelu pojavljuju s.v., kao što su X1,...,Xn, 


zatim statistika, odnosno procjenitelj T', čija vjerojatnosna razdioba nije fiksirana, 
već je ovisna o parametru t € O. Stoga će 1 sve izvedene veličine, kao što su na 
primjer očekivanje, varijanca i sl. za te s.v. također ovisiti o parametru t, pa 
zato treba voditi računa da se operatori E (očekivanje) i V (varijanca) odnose na 
vjerojatnosnu razdiobu P,. Korektnije bi, zapravo, bilo da se oni označuju sa E,, 
odnosno V:, kako bi se istaknula njihova ovisnost o parametru t, ali će se radi 
jednostavnosti pisanja izostavljati indeks £. Tako smo već postupili u formuli (5), 
gdje je umjesto precizne oznake V,p[[X] upotrijebljena jednostavnija oznaka VLX], 
a slično ćemo postupati i ubuduće. 

Funkcija rizika, odnosno operativna karakteristika, može poslužiti kao određeni 
pokazatelj pri međusobnom uspoređivanju različitih procjenitelja. Uzme li se u 1. 
primjeru procjenitelj aX (0 < a < 1) umjesto procjenitelja X, i funkcija gubitka 
L(aZ,p) = (aZ£ — p)?, za funkciju rizika dobiva se 


Ri(p) = E(aX — p)?] = ažE[X%] — 2apE[X] + p? 


a = pa ns 1 
Budući da je ELX] = p, EX] = V[X]+(E[X])? = : p(1—p) +p*, dobiva se 


(9) Ru(p) = —ažp(1— p) + np%(1—a)?,p€ (0,1) 


Za a = 1 očigledno (9) postaje (5). Usporede li se funkcije rizika (5) 1 (9), tako da 
se promotri 


po 


Rup) _ 2, "pd =a) 


=a =a a=ić 
R(P) Is2p 
ću : m 2 np(1l—a)* . ZABE E: u BRO: 
vidi se da jednadžba a“ + žbi=a = l|imarješenje p = po = noj trpa 


što znači daje Ri(po) = R(po),dokjezap< po, Ru(p) < R(p),azap > po, Ri(p) > 
> R(p). 


Uzme li se, na primjer, a = 0,5 dobiva se pg = 


s rme 
, što znači da je zA bolji 


procjenitelj (u smislu manjeg rizika) od X, ako je stvarna vrijednost parametra p 


' 3 
manja od : zi Za velike uzorke (n —> co) očigledno je interval (0, 5) na 


n+3/' 


kojem je Sa bolji procjenitelj od X, vrlo uzak. No, za male uzorke taj interval 


am 3 \. ' 
nije beznačajan. Za n = 10 to je interval (0, 5) 1 tada je 


J 


Ri(p) = 20 09P +1), 
dok je 


Rap) = 7o(1 > pp. 


Skica odgovarajućih grafova prikazana je na sl. 2 


| 
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0,06 


v= Ri(p) 


0 0,1 0,2 po 0,3 0,4 0,5 


: : e ano m.lo 
Slika 2. Operativne karakteristike procjenitelja X i Ze zan =10 


Iz (8) se razabire da funkcija rizika, odnosno pripadna operativna karakteris- 
tika, osim o izabranom procjenitelju ovisi i o izabranoj funkciji gubitka L. Funkcija 
gubitka obično se odabire u skladu s prirodom konkretnog problema. 


Najčešće se kao funkcija gubitaka, PrI procjeni nepoznatog parametra t (te c 
C R) vrijednošću £, procjenitelja jE uzima kvadratna greška, tj. stavlja se 


(10) Pojeo 
tako da je pripadna funkcija rizika 
(11) R(t) = PUT -_t)'|teo. 


Vrijednost R(t) može se, dakle, interpretirati kao očekivana ili srednja kvadratna 
greška pri aproksimaciji nepoznatog parametra t vrijednošću £ procjenitelja I. 


Ako procjenitelj q zadovoljava uvjet 


(12) JAJE 


onda se kaže da je T nepristrani ili centrirani procjenitelj. 


Inače se veličina 


(13) (0) = ET] - 
zove pristranost procjenitelja. | 
Ža nepristrani procjenitelj formula (11) postaje 


(14) RO = PIF BPI = VEČI 
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pa se vidi da su vrijednosti funkcije rizika varijance procjenitelja. Prema tome, 


ako se funkcija rizika definira formulom (1 1) onda će se, prema formuli (69) iz IV.6, 
minimalni rizik postići s nepristranim procjeniteljem koji ima minimalnu varijancu. 


Općenito se može pisati 
E(T — 0%] = E(T — ET] + 0(6))%] = E(T — ED" +6(0), 
tako da funkcija rizika ima oblik 
(15) R(t) = VITJ + 6(1),t€ 0, 

Procjenitelj X, razmatran u 1. primjeru i definiran u (3), nepristrani je 
Procjenitelj parametra p, dok procjenitelj aX (0 <a < 1) nije nepristran jer je 
ElaX] = aE[X] = ap, pa je njegova pristranost b(p) = p(a — 1). lako je nepristra- 
nost poželjno svojstvo procjenitelja, može se dogoditi da pristrani procjenitelj i ima, 
bar u nekom dijelu skupa O dopuštenih vrijednosti parametra, manje Krijednošli 
funkcije rizika nego nepristrani procjenitelj. To se, na primjer, vidi na sl. 2. 


Da se pri izboru procjenitelja nije dobro selania samo na intuiciju, već da treba 
imati i egzaktnije metode, pokazat će nam idući primjer. 


2. primjer 


Vrijeme života pojedinog dna u određenoj biološkoj vrsti slučajna j je 
varijabla. Pojedini individuumi umiru već pri rađanju, tako da je najmanje moguće 
vrijeme života nula vremenskih Jedinica. Odmah se može postaviti zadatak da se, 
na temelju n mjerenja dase Eni označuje životni vijek 2-tog individuuma), 
Procijeni najveće moguće ijalije života u promatranoj biološkoj vrsti. 

Da bi se definirao odgovarajući teorijski model pretpostavit će se da je 
(1...) vrijednost slučajnog uzorka (X1,...,Xh ), gdje X; — U(0,t), + = 
= 1...,n. Drugim riječima, pretpostavlja se da vrijeme života ima uniformnu 
razdiobu na segmentu [0,t] (t > 0), pa se zadatak svodi na procjenu nepoznatog 
m, t u parametarskom modelu s klasom dopuštenih vjerojatnosnih razdioba 

P=(U(0,1):0<t< oo). | 


Pri definiranju procjenitelja za arnički t može se rezonirati, na primjer, 


ovako: aritmetička sredina ZF = . (Brdte/F Zn) trebala bi pasti negdje oko sredine 
segmenta [0, £], jer je teorijska sredina uniformne razdiobe st (v. IV.6). Stoga bi 
Se nepoznati parametar € mogao aproksimirati vrijednošću 2, pa se čini da bi 
(16) di=2X=_(04+..4X) 

mogao biti dobar procjenitelj za parametar t. Odmah se vidi“(formula (47) u V.6) 


da je 


e 2 | 2 t 
ET] = ZELI +...+ Xu] = ZRELI] =: 25 1 


Sto znači da je 1, nepristrani zad ete Primjenom formule (49) u V.6. izvodi se 
odgovar:; ajuća očekivana kvadratna Breška 
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(17) šljevnjss VLX;] = ME lu t>0 
ME e nl2 3n / ' 
Drugi način razmišljanja pokazuje da bi najveća vrijednost u nizu z1,...,Zn 


trebala biti blizu nepoznatog parametra t, pa se čini razumnim uzeti slučajnu va- 
rijablu 
(18) T, =max(Xi,...,Xn) 
kao procjenitelj za nepoznati parametar t. 
Primjenom rezultata navedenog u formuli (50), točke 9. u V.6, može se dobiti 


f.r.V. za S.v. I Ovdje, naime, f.r.v. zas.v. Xi(i=1,...,n) jest 


0.za z<0 


T 
F(z) = g Za 0 < 1 < t 
l, Za. >, 
iz čega slijedi da f.r.v. za s.v. I glasi 
0, za x<0 
r n 
(19) G(2) = [F(e)=4 (2), za O<ax<t 
1, za r>t, 
a pripadna f.g.v. glasi 
dG(z) 0, za z<0ir>t 
(20) g(z) = di i a za 0<r<t. 
To omogućuje da se odredi 
> n 
E[T2| = laje t 
(fd = | aola)de = —5—, 


(21) Bk s a. 
UGENEZOKE Ga) BCESICE DI 


Iz (21) se vidi da jE nije nepristrani procjenitelj 1 da je njegova pristranost 


t 
n+1l 


b(t) = — 


Ako se, primjenom (15), odredi očekivana kvadratna greška (funkcija rizika) za 
procjenitelj 72, dobiva se 
Žis 


(22) Ra) = rao > 


Usporede li se procjenitelji T; 1 1? za nepoznati parametar t, tako da se načini 
kvocijent 
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R2(t Gn 
R4). ge = an), 
Ri(t) (n+1)(n+2) 
vidi se da taj kvocijent ne ovisi o t, već samo o n, i to tako da je za n > 2 rizik 
pri procjeni procjeniteljem T2 manji od rizika pri procjeni nepoznatog parametra 1 


procjeniteljem Ti. 


Tablica 1. 


Iz tabl. 1. vidi se da je, već za uzorke veličine oko n = 50, taj rizik gotovo 
deset puta manji. 

Ovaj primjer donekle objašnjava već ranije izrečenu primjedbu da nepristranost 
i nije baš bitno svojstvo za dobre procjenitelje. Od pristranog procjenitelja se, inače, 
jednostavnim "popravkom? može dobiti nepristrani procjenitelj, koji u pogledu 
rizika ima slična svojstva kao i polazni pristrani procjenitelj. N 

Uzme li se, na primjer, umjesto pristranog procjenitelja 12 procjenitelj 


m n+1- n+1 


dora Žers 
n n 


MALA ri A), 


dobiva se nepristrani procjenitelj jer je očigledno 


a 1 pu 
inje = irj=t 


Funkcija rizika za procjenitelj 13 glasi 


23 he ijele vrije 050 
29) ni SVIME n 2 iman2)y : 


pa se vidi da ona, poput R2(t), opada kao n-?, za razliku od Ri(t), koji opada kao 
moj 

Prethodna razmatranja vrlo očigledno pokazuju kako je složen problem 
određivanja dobrog procjenitelja. Tako se, općenito, bez dodatnih pretpostavki, 
i ne može naći procjenitelj koji bi imao uniformno (za svaki t € 0) najmanji rizik 
u skupu svih mogućih procjenitelja. Poznat je, međutim, tzv. minimaks-princip za 
izbor procjenitelja najmanjeg rizika, koji kaže da za procjenu nepoznatog parametra 


t treba uzeti onaj procjenitelj To za koji vrijedi 


(24) Ro(0) = ELŠo— 02) = min(max EF — 0*I), 
TET teo 


pri čemu je 7 određena klasa procjenitelja za parametar t. S 

Ako bi se, na primjer, želio naći procjenitelj za parametar p iz 1. primjera u 
skladu s minimaks-principom, pri čemu se za ja dopuštaju procjenitelji oblika aA, 
tj = IT = aX:0<a<I1), onda bi, prema (9), trebalo promatrati 


H 
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a€[0,1] \pe[0,1] [n 


min max zečp il-p)+ np“(1— | ' ' 


Budući da je 


1 | 
M (a) = max zečpa —p)+np*(1- "| E 1 
pe[o,1] [n da 


očigledno je da ne postoji a € [0,1] za koji bi funkcija a > M(a),O<a<1, 


0 0,5 >; 1 


Slika 3. Skica grafa funkcije a > M(a) 


postigla minimalnu vrijednost. Stoga se zaključuje da u klasi procjenitelja oblika 
aX ne postoji procjenitelj za parametar p, koji bi zadovoljio minimaks-princip. 
Vidjeli smo da aX, za a # 1, nije nepristrani procjenitelj za parametar p, pa se 
može pomisliti da procjenitelj koji zadovoljava minimaks-princip treba tražiti u 
klasi nepristranih procjenitelja. | 

Općenito vrijedi da će nepristrani procjenitelj minimalne varijance zadovolja- 
vati minimaks-princip, što se razabire iz formule (69) u IV.6. Takvi procjenitelji 
obično se zovu najefikasniji procjenitelji, a o tome kako se pronalaze bit će riječi u 


VI.7. 


2. Procjena očekivanja i varijance 


U mnogim praktičnim situacijama potrebno je procijeniti teorijsku srednju 
vrijednost (matematičko očekivanje) neke veličine na temelju n (n € N) izvedenih 
mjerenja. Poznato je, na primjer, da se ponavljanjem mjerenja težine određenog 
predmeta redovito ne dobivaju jednaki rezultati, već se dobiveni niz mjerenja 
Z1,...,Zn može razmatrati kao niz statističkih podataka. Stvarna težina u može se 
shvatiti kao matematičko očekivanje E(/X) neke s.v. X, pa se problem utvrđivanja 
stvarne težine dotičnog predmeta može interpretirati i kao problem procjene 


parametra pu s.v. XY, na temelju n nezavisnih mjerenja. Tada se (z1,...,£n) shvaća 
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| 


kao vrijednost slučajnog uzorka (X1,.. ' Kn), gdje su X1,..., X, nezavisne s.v. s 
istom vjerojatnosnom razdiobom kao i s.v. A. 

Teorijski model koji omogućuje rješavanje problema izgrađuje se tako da se, 
kao klasa dopuštenih razdioba vjerojatnosti za s.v. X, uzme klasa P koja miha 
sve vjerojatnosne razdiobe s konačnim očekivanjem i fiksiranom varijancom og 
Klasa P ne može se opisati pomoću konačnog broja parametara, tako da je ovdjć 
riječ o neparametarskom modelu. | 

Pri definiranju procjenitelja za nepoznato očekivanje u intuicija nas navodi na 
ideju da bi statistika | 


mogla biti dobar procjenitelj za nepoznato očekivanje u s.v. X. Očigledno je, 
naime, da bi aritmetička sredina Z = — (zy+...+Zn) izmjerenih podataka trebala 
no 


pasti blizu nepoznatog parametra /1. 


Statistika X zove se uzoračka ar itmetička sredina i odmah se vidi (formula 
(47) u V.6) da vrijedi | 


E[X]= 2 (EPG]+.1. 


n 


l 
E[X,]) = u=B, 


pa se može zaključiti da je X nepristrani procjenitelj za uu. 
Pripadna srednja kvadratna greška, nm (49) u V.6. glasi 


26) VOĆI= (VL +. 


n?2 


l 
—6* ne R. 
n 


Moglo bi se, dakako, pokušati i s drugim procjeniteljima za nepoznato 
očekivanje Ju. Tako se mogu naći određena opravdanja da se vrijednost m medi- 
jana niza statističkih podataka zi, .. Zn (v. 11.2) uzme kao procjena za nepoznati 


parametar /t i na temelju toga kia procjenitelj M za M. 
Intuitivno bi se moglo opravdati i uzimanje statistike T = 5 =[min(zi,...,Zn)+ 


+ max(Z1,...,Zn)], čija vrijednost t označuje sredinu između najmanje i najveće 
izmjerene vrijednosti, kao procjenitelja za teorijsku sredinu u s.v. X. 

Međutim, u pretpostavljenome teorijskom modelu praktički je nemoguće 
utvrditi svojstva ovih i drugih procjenitelja, bitno različitih od procjenitelja >. 
na temelju kojih bi se oni mogli međusobno uspoređivati, Za rješavanje takvih 
problema trebalo bi teorijski model promijeniti, recimo tako da se za s.v. AX do- 
puste samo normalne razdiobe, tj. da se stavi P = (N(p,o 2) :unER,a > 0. No 
time se izlažemo opasnosti da nam stvarna vjerojatnosna raspodjela oslane izvan 
pretpostavljenog modela. 

U statističkim zaključivanjima m postoji dilema o tome da li teorijski 
model definirati tako da klasa P dopuštenih vjerojatnosnih razdioba bude što 
opsežnija, kako bi bio što manji rizik da stvarna razdioba ne pripada klasi P, ili 
pak klasu detaljnije opisati, što znači dla će biti manje opsežna, ali će omogućiti 
više teorijskih spoznaja o odnosu DSP PNa oj parametra 1 njegovih procjenitelja. 


1 
1 
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Stvar je kreatora teorijskog modela da, na temelju znanja, iskustva i intuicije, nađe 
razumnu ravnotežu između tih kontradiktornih zahtjeva. 

U teoriji statističkog zaključivanja razrađeni su određeni teorijski modeli i 
stručnjak se odlučuje za primjenu odgovarajućeg modela u konkretnoj situaciji. 

Za problem procjene nepoznate varijance VLX] = o“, teorijski model sasto- 
jat će se od slučajnog uzorka veličine n > 41 klase P dopuštenih vjerojatnos- 
nih razdioba u koju su uključene sve one razdiobe koje imaju fiksirani konačni 
četvrti centralni mmen Ma. SEE. se čini razumnim definirati procjenitelj za 
sd parametar o“ tako da se s? aproksimira vrijednošću uzoračke varijance 

— Die — £)* (v. 11.3). To znači da će se statistika 

ne, 

u hee a 
(27) =) (=) 
NS 

koja se inače zove uzoračka varijanca, uzeti kao procjenitelj za nepoznati para- 
metar o. 


je os 1 2 1. 
Budući da je 9/2 = — di Koa X bitće 


E[5?] = : > ELX?]- EX KA 


što se, na temelju formule (33) u IV.4, može pisati 1 


CI 
m 


: Div Xi] + (E[X4])*) — VIKI — (EL). 
iči 
Uzevši još u obzir da je E[X;] = u, VIXi] = o(d = 1 n), EX] = ni VX] = 


l 
= —ao“, konačno se dobiva 
n 


9 l l 
(28) E[5*) = —[n(0* +p?)]- o? — u = o". 
n n 


n 


(29) | m sem. 


iž1 


koja se inače zove korigirana uzovačka varijanca, biti nepristrani procjenitelj 
nepoznate varijance o“. 


(30) V[5%) = - 7 se *) | 
(8) 


ža 
I 
i | 
jE 


a: 
“ 
Ka 
Ž 
pra 
A 1 
“ 
3 
Ka 
ti 
ž 
bI 
Hi 
> 


nj e e e RT o PTO 
o E E 


menon 


g 
Prakrai 


T Oran 
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dok je 


(31) V[S5?] = - ( 2 2) ma — C _ =) £ — :) «I | 


3. Metoda najveće vjerojatnosti 


Prethodno razmatranje pokazalo je da definiranje procjenitelja u problemu 
procjene parametara ima ključnu ulogu. S druge strane, vidjelo se da intuicija baš 
i nije uvijek pouzdan voditelj pri definiranju procjenitelja, pa se prirodno nameće 
ideja da se nađu neka opća načela na temelju kojih bi se pronalazili dobri procje- 
nitelji. Jedno od najvažnijih i najplodotvornijih načela zove se metoda najveće 
vjerojatnosti (engleski: Mazimum Likelihood Method), ii kraće MIL-metoda. Za 
bolje razumijevanje biti ove metode razmotrit će se idući primjer. 


3. primjer 


Uzmimo da je u 1. primjeru n = 10 i da dobiveni niz od 10 mjerenja glasi 
0,1,0,1,0,0,0,1,0,0. Vjerojatnost da se mjerenjem dobije baš taj niz, uz pretpostav- 
ljeni teorijski model, iznosi 


PKr=0X=1X= 0,Xa=1,X5=0X4=0X7;=0Xa=1,X9g=0,X10=0) = 
=P(Xi =0)P(X, = 1)P(X3 = 0)P(X4 = 1)P(X5 = 0)P(X6 = 0)P(X; = 0)P(Xa =1). 
PX = 0)P(Xio =0) = p?(1-p)" = L(p). 


Promotri li se funkcija p > L(p),p € [0,1], vidi se da je L(0) = E(1)=01i da 
ona poprima maksimalnu vrijednost L(0,3) = 0,33 - 0,77 a 0,0022, baš za p = 0,3. 
(To se može jednostavno izvesti primjenom diferencijalnog računa; v. zad. 8.) Sto- 
ga se čini opravdanim vjerovati da je stvarna vrijednost nepoznatog parametra p 
baš 0,8 a ne recimo 0,1 ili 0,6, jer je L(0,1) = 0,0005, dok je L(0,6) = 0,00035, što 
su znatno manje vrijednosti od L(0,3). 

Kada bi, dakle, stvarna vrijednost nepoznatog parametra bila p = 0,3, onda 
teorija pokazuje da je vjerojatnost dobivanja baš izmjerenog niza podataka najveća. 
To nas upućuje da vrijednost 0,3 uzmemo kao procjenu za nepoznati parametar p. 


Opće načelo može se formulirati ovako: Da bi se u parametarskom modelu S 
klasom dopuštenih vjerojatnosnih razdioba P = (P, :t € O) definirao procjenitelj 


za nepoznati parametar t, na temelju niza podataka Z1,...,ZTn, Konstruirat će se 
funkcija 


(32) t> LG)=P(Ki=qm).... P(Xn=zn)te0, 


1 odrediti (ako postoji) ona vrijednost t = t € 0 za koju ta funkcija poprima 
najveću vrijednost i # će se uzeti kao procjena za nepoznati parametar £. 
Očigledno je da Z(t) ima značenje vjerojatnosti da se pri mjerenju slučajne 
varijable X dobije baš dani niz podataka, ako je stvarna vrijednost parametra baš 
l. Stoga se to načelo i zove metoda najveće vjerojatnosti, jer se kao procjena 


Na a PEP —_————— — ——_. ———————— 
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nepoznatog parametra uzima ona vrijednost t iz skupa 6 svih mogućih vrijednosti 
koja pojavljivanje baš izmjerenog niza podataka čini najvjerojatnijim. 

U 3. primjeru imali smo t = pi riječ je bila o klasi P = (B(1,p):pe€ (0,1)) 
Bernoullijevih razdioba nepoznatog parametra p, koje pripadaju u diskretne raz- 
diobe vjerojatnosti (v. IV.1.i IV.2), što je omogućilo da se dobije eksplicitni izraz 
za funkciju p > L(p). Slično će se postupiti i za bilo koju drugu klasu diskretnih 
vjerojatnosnih razdioba. | 

Ako je, međutim, riječ o klasi P kontinuiranih razdioba vjerojatnosti, onda je 
RAr=rtjseti=1.. m pas iz (32) vidi da je tada L(t) =0zasvakite 0 
pa opisano načelo, očigledno, u tom obliku ne funkcionira. 

Statistička zakonitost u kontinuiranoj razdiobi vjerojatnosti, kao što je već 
rečeno, izražava se pomoću f.g.v., pa se prirodno nameće ideja da se u tom slučaju 
L(t) definira formulom 


(33) L(t) = fi(mi)... fi(zn),t € 0, 


gdje f, označuje f.g.v. kontinuirane vjerojatnosne razdiobe P,. Stoga se L(t), 
definirano u (33), može interpretirati kao gustoća vjerojatnosti slučajnog vektora 
(Kaye Ke u točki (orao. £,) € R". ML-metoda i sada funkcionira tako da se 
odredi (ako postoji) ono t = t, za koje funkcija (33) postiže najveću vrijednost. 

Za procjenu nepoznatog parametra t kontinuirane vjerojatnosne razdiobe uzi- 
ma se, dakle, ona vrijednost t € 0 koja gustoći vjerojatnosti u točki Gao, nE 
€ R" daje najveću vrijednost. | 

Općenito se funkcija t > L(t) definirana u (32), odnosno (33), zove funkcija 
vjerodostojnosti (engleski: likelihood function). 


4. primjer 


U 2. primjeru riječ je bila o procjeni parametra t (t > 0) uniformne razdiobe 
U(0,t), pa se može postaviti zadatak dla se nađe odgovarajući procjenitelj ML-me- 
todom. Ovdje pripadna f.g.v. jest 


da 0D<e<t 

—, za g 
f(z)= 8 sake: a: 

0, za r<0iz>t, 


pa je 


I za Oe maxltiu;c an) et 


(34) JUZ) roza hl jr 
0, zaostale (Zi,...,z,) € R". 


Iz (33) i (34) odmah slijedi da odgovarajuća funkcija vjerodostojnosti glasi 
(35) LO) =4 8 
U Za Ene, 


>t 


ce 


Za 


gdjejet = max(zi,...,2,). 


geg 


“Risk: 
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t 


Slika 4. Skica grafa funkcije definirane u (35) 


Iz sl. 4. zorno se vidi da funkcija vjerodostojnosti definirana u (35) postiže naj 
veću vrijednost zat = = Max(Z1,..., ta), što znači da je t procjena za nepožnahi 
Parametar £ u smislu ML-metode. (Primijetimo da se taj rezultat ne može izvesti 
primjenom tehnike diferencijalnog računa.) x 

U 2. primjeru razmotrena su svojstva procjenitelja T2, definiranog formulom 
(18), pa se sada može primijetiti da je t, zapravo, vrijednost procjenitelja T2. Stoga 
će se procjenitelj T> zvati M L-procjenitelj nepoznatog parametra ć uniformne raz- 
diobe U(0, 1). | _ | 

Razmatranja u 2. primjeru pokazala su da ML-procjenitelj T2 ima mnogo bolja 
Svojstva od procjenitelja 7, (definiranog formulom (16)) istog parametra f. Kasnije 
če se pokazati da M L-procjenitelji općenito imaju neka dobra svojstva, koja im daju 
prednost pred procjeniteljimma dobivenima na temelju nekih drugih načela. 


Određivanje ML-procjenitelja u nekom modelu s klasom dopuštenih vjerojat- 
nosnih razdioba P — (fr: te 6], gdje £ može biti i Ra Pam t]. 
t — (lija) cocn (k € N), obično funkcionira na ovaj način: Ako je 
riječ o klasi diskretnih razdioba vjerojatnosti, onda se funkcija vjerodostojnosti 
definira formuloni | 


(3Ga) L(t)= Pg(Xi=):... Pi(Xn =), t€6, 


a ako je riječ o klasi kontinuiranih razdioba, definira se formulom 


(36b) L(t) = (m). fe(mn), te 6. 


Procjenitelj T, čije se vrijednosti £ dobivaju kao one Rk koje 
3 : : a ' ž E > , y 3 )OZ- 

funkcija vjerodostojnosti postiže maksimum, zove se ML-procjenitelj nel 

natog parametra £. | | 


U mnogim važnim primjerima £ > L(£) je diferencijabilna funkcija, koja naj- 
*ecu vrijednost poprima u točki £ € R', za koju vrijedi 


(37) IL) _ _0LE%) 


| 
I 
] 
1 
| 
l 
| 
i 


VI.3 Metoda najveće vjerojatnosti 123 


a. 


Rješavanjem sustava jednadžbi (37) dobiva se rješenje € — (ti,...,tk) izraženo 
u ovisnosti o izmjerenim podacima (Z1,...,Fn), tako da se može pisati 


kaos 
= 


MilTiesnsi) 


(38) 
Ik E NA (Pisano Baj: 


Ako se u (38) konkretna vrijednost (Z1,...,Zn) zamijeni slučajnim vektorom 
(X1,..., Xn), onda se za statistiku 


LaS 


leh Gj jeja 


J 


kaže da je ML-procjenitelj nepoznatog parametra tj. 


5. primjer 


Treba naći opći oblik ML-procjenitelja za parametar \ (A > 0) Poissonove raz- 
diobe Po(A) (v. IV.3), uz pretpostavku da se raspolaže s nizom podataka zi,...,z,. 
Klasa dopuštenih razdioba vjerojatnosti je, dakle, P = (Po(A) :A > 0), pa pri- 
padna funkcija vjerodostojnosti glasi 


ATI Tn 
L(A) = — exp(—))... exp(—A) = 
Ti! ak. 
l 
= —————— Atta exp(—nA), A >0. 
Ti! RE To 
bee l a = ' 
Stavi li se zar mri=kin+...+z, =, dobiva se 
Ve aka “ae 


L(A) = KA""exp(—nA),A > 0. 
Deriviranjem po A dobiva se 


d L(A) 


— DL nr-1 ae = 
.\ = KnA exp(—nA)(z— 2). 


Budući da je KnA"7-1 eXp(—nA) > 0, ostaje da se po \ riješi jednadžba z— A = 0, 
iz čega proizlazi A= A =. 

Prema tome, opći je oblik ML-procjenitelja za nepoznati parametar A Pois- 
sonove razdiobe 


ke. 97 
(39) A=X=—(N+..+X,). 


Lako se pokazuje da je A nepristrani procjenitelj i da pripadna funkcija rizika glasi 


(40) ROj==A 20 
n 
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>. ki Gj A s 


6. primjer 


Često se usvaja pretpostavka da je vijek trajanja nekoga tehničkog uređaja 
slučajna varijabla eksponencijalne razdiobe (v. IV.5). Mjerenjem vijeka tra- | 
Janja n takvih uređaja dobiven je niz podataka zi,...,Zn- Treba procijeniti | 
nepoznati parametar a (a > 0) eksponencijalne razdiobe Ex(a ).  Pokušajmo, | 
dakle, u jednoparametarskom modelu s klasom dopuštenih vjerojatnosnih razdioba 
a (Ex(a ):a > 0) pronaći ML-procjenitelj za nepoznati parametar a. 

Budući da f.g.v. za Ex(a) glasi 


o aj 30; zas <0 
Je(2) = aexp(—az), zar >0, 


pripadna funkcija vjerodostojnosti glasi 
L(a)=a"exp[—a(zi+...+Zn)|,a > 0. 


Stavi lisez,+...+z, = nz, dobiva se 


L(a) = a" exp(—anz),a > 0, 
Iz čega, deriviranjem po a, odmah proizlazi 


dL(a) 1 


= na"-' exp(—anz)(1— az). 
da 


Budući da je na">1 eXp(—anz) > 0, ostaje da se po a riješi jednadžba 1 — az = 0, 
12 čega se dobiva 


(41) a=a= 


Prema tome, opći oblik ML- procjenitelja za nepoznati parametar a eksponen- 
cijalne razdiobe Ex(a ) glasi 


.: 1 n 
(42) am 
Ke Kit... + An 


: : : m l 
Stvar se može pojednostavniti tako da se — = ag razmatra kao parametar ekspo- | 


nencijalne razdiobe i tada je Qg = €, pa opći oblik ML-procjenitelja za parametar | 
Qg glasi 


zn 
(43) Ag = X s —(Mi + PIECE -+ pada 
n 


— ay, onda je Ao nepristrani 


.. kl a. ETE 

Budući da je E[A4] = ELX] = ŽnELX1] = EM] = “e 
. . . m 1 

Procjenitelj za parametar ag i pripadna funkcija rizika izgleda 


a 1 
(44) R(a9) = VIA] = Le . — ao AGO. | 
n : 
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Da je, umjesto jednoparametarskog tsdela s klasom eksponencijalnih razdioba, 
usvojen dvoparametarski model s klasom P = (G(a,B8) : a > 0,8 > 0) gama- 
-razdioba s parametrima a i 6 (v. IV. 5), došlo bi se do funkcije vjerodostojnosti 


oblika 


L(a,8) = En (21:24. 2n)P-! exp[-a(zr:...21)]. 


Pokuša li se riješiti sustav jednadžbi 


0L(a,8) _, OL(a, 8) _ 
Ja u 8 


po a1, nailazi se na velike teškoće, jer se a 163 ne mogu eksplicite izraziti u 
ovisnosti o Zi,...,Zn, tako da u ovom slučaju ML-metoda ne omogućuje dobivanje 
općeg izraza za procjenitelje nepoznatih parametara a i B gama-razdiobe G(a,B). 
To nas upućuje da valja razmotriti i druge metode za dobivanje procjenitelja, o 
čemu će biti riječi kasnije. | 


4. Procjenitelji parametara normalne razdiobe 


Normalna ili Gaussova razdioba (v. IV.5) ima istaknuto mjesto u matematičkoj 
statistici i stoga će se detaljnije iznijeti problem procjene parametara ui o? nor- 
malne razdiobe N(pu, o). Polazi se, dakle, od pretpostavke da je dan niz podataka 
(mjerenja s.v. X) z,,...,Zn 1 da je klasa dopuštenih vjerojatnosnih razdioba 

= (N(u,o?):p€ R,o > 0), tj. da je riječ o dvoparametarskom modelu u 
kojem je & = ((uo0) € R* :ueE R, g > 0) skup dopuštenih vrijednosti vek- 
torskog parametra t = (u, o*). 

Iz (36b) proizlazi da pripadna funkcija vjerodostojnosti glasi 


45) = LG) =L(u,0?)= 


| 
Q 
[o 
= 
| 
NI 
pre 
& 
zA 
s 
Pat 
poe 


ll 
pr 
šo 
2 
Q 
h4 
[< 
OD 
Pa 
gej 
| 
đo 
= 
to 
09 
ku 
ns 
< 
tO 
| 
(m 
(TM 


L(t) 
O 


Jednadžba 


= 0, nakon sređivanja, postaje 


who 


geg 


Sets < 


roi Ze 


Overeem 
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L(t) 


do? 


a jednadžba — 0 postaje 


—no* + se = 


i=" 


što, kao rješenje za uu, daje 


ik = os: n=4 
n <“ 
ooZel 
. . * . 2 | | . 
a kao rješenje za a* dobiva se 

| n 

2 | =\2 

a“=6=+) (mw -7T) 

n< ' 
= 


2 normalne razdiobe 


Stoga su ML-procjenitelji za nepoznate parametre u 1 o 


N(u, o“) statistike 


PS ide X) 


iz=1 


Može se, dakle, reći da je procjenitelj za u uzoračka aritmetička sredina Xa 
procjenitelj za o“ uzoračka varijanca 5 se 
Na temelju (25) i (28) vidi se da j je X M keke procjenitelj za parametar 


u, dok 572 nije nepristrani procjenitelj za parametar o“, ali se može, kao i u (29), 
definirati odgovarajući nepristrani procjenitelj 


mej peziba 
n—1 TIE 


i=1 


koji smo nazvali korigirana uzoračka varijanca. 

Da bi se dobila funkcija rizika mora se imati na umu da je t = (pu, o“ *)idaće se 
funkcija gubitka opet definirati kao srednja hk kvadratna saa pri aproksimaciji vek- 
torskog parametra t = (u,0?) vrijednošću t= (ot 
točaka titu prostoru R". Dobiva se | 


. kao kvadrat udaljenosti 


(46) R(t) = R(u,92) = EI(X + 1)?]+E(S? -02)),te 6. 


Iz (26) se razabire da je 
(47) E(X — u)"]= VITI = —o 


dok iz (28),(31) 1 činjenice da je u normalnog razdiobi N(pu,o*) četvrti centralni 
moment 4 = 30“, proizlazi da je 


2n — 1 


(48) E(S? — o?)?] = 


......—— io 


VI.4 Procjenitelji parametara normalne razdiobe 127 


Iz (46),(47) 1 (48) naposljetku se dobiva 


(49) R(t) = R(u,o") = —o? + ai tee, 


n 
iz čega se razabire da funkcija rizika, pri procjeni nepoznatoga vektorskog parametra 
t = (u,o*) vektorskim procjeniteljem T = (X, s ), ne ovisi o u, već samo o o. 


To je i za očekivati s obzirom na značenje parametra u kao određenog pokazatelja 


lokacije vjerojatnosne razdiobe, dok je "slučajnost" razdiobe izražena parametrom 
2 
o 


Ako se T; = (XY, S?) uzme kao procjenitelj za nepoznati parametar t = (u, 7), 
onda će odgovarajuća funkcija rizika glasiti 


R(t) = E[(X — 1)2] + ES? — o2)), te 6. 


Vodeći računa o činjenici da je S“ nepristrani procjenitelj za o2 i da je 
E[(S? — o2)?] = V[S?], te uzimajući u obzir da je ua = 30%, iz (30) se dobiva 


2 
(50) E(S* —o*)"] = i 
n—1 
što zajedno sa (47) naposljetku daje 
: il 2 
(51) R,(t) = Kio Lo? + u Lah teo. 
n n — 


Usporede li se funkcije rizika (49) 1 (51), vidi se da je, za n > 1, srednja 
kvadratna greška pri aproksimaciji nepoznatih parametara uu i o? WEE dnčshima 


ML-procjenitelja X i 5? nešto manja nego pri aproksimaciji vrijednostima nepri- 
stranih procjenitelja X i S2, Međutim, za velike uzorke (n —> 00) ta prednost 
ML-procjenitelja isčezava. 


: . še EE EO AD , , ie č , 2.8 š 
Procjenitelji X, 57? 1 S% imaju zanimljiva svojstva i kao određene slučajne vari- 
Jable, dobivene kao funkcije slučajnog vektora (X1,..., Xn) u kojem su komponente 


nezavisne s.v. sa zajedničkom vjerojatnosnom razdiobom N(pu, o). Na temelju 
točke 1. u V.6. odmah, naime, proizlazi da vrijedi 


m. ll 
(52) X N(u, o"). 
n 


Teže je dokazati (v. [38]) da vrijedi i 


— | 
(53) Da 67 SU (m —1), 


o2 


a dokazuje se 1 da su X 1 U nezavisne slučajne varijable. 


Metodom najveće vjerojatnosti može se doći i do procjenitelja za parame- 
tre dvodimenzionalne normalne razdiobe N(p,p2,07,02,p). Polazi se od pret- 
postavke da je dan niz dvodimenzionalnih podataka (21,V1),...,(Zn,Vn) 1 da je 
klasa dopuštenih razdioba vjerojatnosti 
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M osim. == === 


P= (N(M, 12, 01,02,P) (M1, M2, 1,02,P) € 4 , 


pri čemu je 
6 = it 2 (M1,M2,01,02,P) S R? * M1, M2 € R,9, pe 0,02 2 0,0 < \p| < 1) : 
U ovome teorijskom modelu slučajni uzorak veličine n je niz nezavisnih 


dvodimenzionalnih slučajnih vektora (X1,Y1), (Kn, Yn), Pri čemu (X, M) 


so Ni ft; 01;02 pk GE las Pt) | . 
a Camaclja fo tnnila (18), (19) i (20) u V.3. razabire se da pripadna funkcija 


vjerodostojnosti glasi 


L(t) 2 L(M , M2, 01,02. p) = KK" expl— » Qi: INA 


i=1 
Rješavanjem sustava jednadžbi 
i ' OL(t 
LU M U E EK A : Mr 
OM Ou2 Ogi Odi p 


dolazi se do rješenja 


be: 
to 
li 
=) 
to 
ll 
siI= 
s 
| 
E 


n 
sd=8=—)(m-7P=sf, 

i= 
2 22 1 - —\2 _ 02 
pe ee (yi > 9) = sy, 

7 : i 
p=p= maj > (m—2u-p=" 


Dobiveni rezultat intuitivno je vrlo prihvatljiv, jer se kao procjene dobivaju up- 
ravo one veličine koje su navedene u 111.3. 1 111.4. kao odgovarajući op ka 
opisivanje niza statističkih podataka o dvodimenzionalnome statističkom obilježj : 
Poea. Sa —=— 2 2 . S > ia m . . na l 

Prema tome, T=(X,Y,2f,22,P)Je vektorski ML procjenitelj za sat 4 
vektorski parametar t = (M1,M2,01,03,P) dvodimenzionalne normalne razdiobe 


2.2 po 
N(M1,42,01,05,p), PII čemu je 


mm I n 
. A a Ki AE 
(54) : ». 


i=1 


| 
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ea. ME 
(55) ga. 
n 
i=1 
f92 l : = 2 
4 iz1 
3) l 2 : rao 
(57) = >) (-P)?, 
n 
Nea 
(58) BEL \ 


Općenito se statistika P, definirana u (58) zove uzorački koeficijent ko- 
relacije. 2 

Statistike X 1 Y, kao procjenitelji za pt 1 42 imaju svojstva koja su već nave- 
dena u (47) i (52), dok statistike 97? i 7, kao procjenitelji za o? i o2 imaju svojstva 
navedena u (48) i (53). Svojstva procjenitelja P mnogo su složenija i neke jedno- 
stavnije formule mogu se izvesti tek uz pretpostavku da je veličina uzorka dovoljno 
velika (n > 09), o čemu će biti riječi kasnije (v. VI.8). 


5. Metoda momenata 


U 6. primjeru vidjelo se da metoda najveće vjerojatnosti dobro ne funkcionira 
Pri procjeni parametara gama-razdiobe G(a,B), pa se stoga prirodno nameće ideja 
da se za taj slučaj i slične slučajeve pokuša pronaći neko drugo načelo koje bi, 
dakako, trebalo biti racionalno utemeljeno, a koje bi omogućilo dobivanje jednostav- 
nog rješenja. Jedno takvo načelo realizira se metodom momenata, koja se temelji 
na uvjerenju da su vrijednosti uzoračkih momenata, tj. vrijednosti statističkih 
momenata (v. 11.6) izračunanih na danom nizu podataka zi, ..., Zn, bliske vrijed- 
nostima teorijskih momenata (v. IV.2. i IV.4) vjerojatnosne razdiobe P, koja je 
pretpostavljena u teorijskom modelu. To omogućuje da se formira sustav jednadžbi 
u kojima je na jednoj strani izraz za dotični teorijski moment, a na drugoj strani 
vrijednost odgovarajućega statističkog (uzoračkog) momenta. 

Tako, na primjer, teorijski izraz za prvi ishodišni moment Bi = ELX] 


eksponencijalne razdiobe _Ex(a) je —, dok je odgovarajući statistički moment 
(X : 


naki ' S : ne 
b=T=—(zL+...+qT,). Iz jednadžbe — = £ proizlazi a = —, što upućuje na 
n 2 a T 

to da se statistika A = — uzme kao procjenitelj za nepoznati parametar a ekspo- 
nencijalne razdiobe Ex(a) u smislu metode momenata. 

Zanimljivo je primijetiti da se isti rezultat dobio 1 metodom najveće vjerojat- 
nosti (v. 6. primjer). | 

Pri procjeni nepoznatih parametara a i /3 gama-razdiobe G(a, 8) iskoristit će 


se teorijski izraz za prvi ishodišni moment 8, = F[X] = — i teorijski izraz za 
a 


gaf: 
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drugi centralni moment uo = DIX] = £ gama-razdiobe (v. IV.5), te odgovarajući 
a 


Ti, DAT : : l n : SE 
statistički momenti bj=fimo=0=-— > (2: — z)“. Iz sustava jednadžbi 
Nizi 
asa Boa 
>< , o pi oj 
a a 


odmah proizlazi 


To pokazuje da će statistike 


(60) m E $: x) 
ks 


il 
= 


i 1 
biti procjenitelji nepoznatih parametara a i 3 gama-razdiobe G(a, 8) u smislu 
metode momenata. | 

: Općenito se može reći da metoda momenata za procjenu parametara u teo- 
rijskom modelu s klasom dopuštenih vjerojatnosnih razdioba P = (Pe :t € 6, 
gdje jet = (t,,.. oh) e 86 c R! (k € N), funkcionira ovako: Teorijski izraz za 
moment r-tog reda », vjerojatnosne razdiobe Py određena je funkcija parametra t, 
pa se može pisati v, = v,(1,,..., tx). io lisesa 2, =D,(Ti,...,Zn) vrijednost 
odgovarajućega uzoračkog (statističkoj ) momenta na nizu podataka (mjerenja s.v. 


s Tha, formirat će se sustav o | k jednadžbi s nepoznanicama t,,...,tk, koji 
glasl : 


(61) W(ti,..tk) = P(E1,...,2n), r=1lk 


Rješenja (ako postoje) toga sustava 


(62) jet=tl(e.,2), g ne 


omogućuju da se definiraju statistike pana o cm nav a 
smatraju procjeniteljima za nepoznate parametre tj u smislu metode momenata. 
Također se može reći da je ez goa nae) vektorski procjenitelj vektorskog 
Parametra t = (t,,...,t)) u smislu metode momenata. 

| Tako će se, na Primjer, pri procjeni nepoznatih parametara ui o? normalne raz- 
diobe N(u, o“) metodom momenata uzeti u obzir činjenica da je ishodišni moment 


: a : 5 . .. 
Prvog reda Pi — M1 centralni moment drugog reda u = o*, pa će odgovarajući 
sustav jednadžbi glasiti 


1 


————o mom am ntaaminessšti 
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Sustav je već zapisan tako da se razabiru rješenja po nepoznatim parametarima u 
i o“. Stoga su statistike X i 2/2 procjenitelji za u i o? u smislu metode momenata. 
Primijetimo da su te iste statistike dobivene u VI.4. i kao ML-procjenitelji za 
parametre pt i o* normalne razdiobe N(pu, 07). 

Da metoda momenata i metoda najveće vjerojatnosti mogu dati i posve ra- 
zličite procjenitelje za isti nepoznati parametar pokazat će idući primjer. 


7. primjer 


U točki 6. iz V.6. definirana je Laplaceova razdioba parametra a, koja se 
translacijom h(z) = 2+ fB prevodi u kontinuiranu vjerojatnosnu razdiobu čija f.g.v. 
glasi | 


(63) jizh= 5 exp(—a|e — B\),z€R, 


1 koja se zove Laplaceova razdioba s parametrom oblika a (a > 0) i parametrom 


lokacije B(B ER). 


A 


Slika 5. Skica krivulje Laplaceove razdiobe parametara a i 3 


Jednostavno se pokazuje da je njezino očekivanje E[X] = Bi varijanca VLX] = 
2 
= A2 (v. zad. 18). 
Ža procjenu nepoznatih parametara ai /3,natemeljunizazi,..., Zn nezavisnih 
mjerenja s.v. A, formiraju se jednadžbe 
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....._:.nLC<x<xw—.. o... 


čije rješenje po a 1 A glasi 


2 

a = u ) B a z, 
o 

tako da su statistike 

(64) A= zv? ĐB=X 


procjenitelji za parametre a 1 B Laplaceove razdiobe u smislu metode momenata. 
Da bi se odredili ML-procjenitelji za parametre a i B Laplaceove razdiobe treba 
formirati odgovarajuću funkciju vjerodostojnosti. Iz (36b)i i (63) proizlazi 


a n a 
(65) LG) =L(0.B)=(5) ev (-aX]le—Hl oa>0BER 
rel 
= .. .. .. . 
Budući da je (5 > 0, na temelju svojstava eksponencijalne funkcije slijedi da 
Ž 
će L(a,fB) poprimiti najveću vrijednost za ono BER, za koje izraz > Iz; — 81 
ja 
poprimi najmanju vrijednost. No, u 11.2. dokazano je da a |z; — B| poprima naj- 
i=1 
manju vrijednost za 3B = m, gdje je m medijan danog niza podataka z,,...,Tn. 
Uzorački medijan može se, dakako, shvatiti i kao određena s.v., odnosno o Lalistika 
M,i kao takva će biti ML-procjenitelj parametra lokacije HB Kaji aceove razdiobe. 
Deriviranjem jednadžbe (65) po a dobiva se 


Zi ek —a lj Ek S Li — 
JL(a,) 
Ja 


pa Iz — 0 odinah proizlazi 


n 


a |z; — 81 


i=1| 


(G6) a = 


na temelju čega se zaključuje da je ML-procjenitelj parametra oblika a Laplaceove 
razdiobe statistika 

e n 

M. o) 

N:—M| 


> 


l l e 
Stavi li se ag = —, onda (66) postaje ag = — > lx; — B|, pa se statistika 
a Mia 


= Rk E 
7 Aa= — A; > M 
(67) = - > | 


pojavljuje kao ML-procjenitelj za parametar ag. 


aaa o o _______—___>__»_ _> __—_>—__>__>_>_>——__>____>__»____________—_____——__—__————— — ————————————————— 
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Zanimljivo je uočiti da se iermiila (67) formalno podudara s formulom (18) iz 


11.4, tako da se statistika Ay, definirana u (67) zove uzoračka apsolutna devijacija 
oko medijana. 


Usporede li se procjenitelji za parametre a1, Laplaceove razdiobe dobiveni 
metodom momenata (formule (64)) i ove dobivene metodom najveće vjerojatnosti, 
vidi se da su to posve različiti procjenitelji. U prvom slučaju procjenitelji se zasni- 
vaju na uzoračkoj aritmetičkoj sredini Ki uzoračkoj varijanci >? dok se u drugom 
slučaju zasnivaju na uzoračkom medijanu M i uzoračkoj apsolutnoj devijaciji oko 
medijana Ag. Da bi se utvrdilo koji su procjenitelji bolji, trebalo bi naći odgova- 
rajuće funkcije rizika. Međutim, nalaženje funkcije rizika za procjenitelje M i Ad 
vrlo je složeno, tako da se faničija rizika ne može izraziti jednostavnom formulom. 

Opcenito jE poznato da su M L-procjenitelji, ako postoje, jednako dobri ili bolji 
od procjenitelja dobivenih metodom momenata, posebno za velike uzorke (n > 09). 


6. Invarijantnost 


Jedno vrlo korisno opće svojstvo ML- procjenitelja, obično se zove svojstvo in- 
varijantnosti, sastoji se u sljedećem : Ako je T ML- procjenitelj za parametar £, 


tada je h(T) ML-procjenitelj za vrijednost h(t), gdje je h određena realna funkcija 
definirana na skupu O (O C R) dopuštenih vrijednosti parametra £. Odmah se, 


dakako, mogu postaviti i pitanja o odnosu drugih svojstava procjenitelja Ti h(T). 
Tako se, na primjer, prirodno postavlja pitanje da li iz nepristranosti procjenitelja 
mn kao procjenitelja za nepoznati parametar t, proizlazi i nepristranost procjenitelja 


h(T I), kao procjenitelja za parametar h(t). Također, nužno je odgovoriti na pitanje o 
odnosu pripadnih funkcija rizika. U tom pogledu ne postoje neki značajniji općeniti 


rezultati, ali se pitanje odnosa pripadnih funkcija rizika može približno riješiti uz 
vrlo o pdenite pretpostavke. 


Ako je h derivabilna funkcija i € blizu t, onda se na temelju poznatog teorema 
srednje vrijednosti može pisati : 


h(t) — h(t ja kh GCt=1). 


gdje h' označuje derivaciju funkcije h. [z toga proizlazi da je 


(68) E(h(T) — h(6))?] = OYE _1)]= ("())2R(t),te€ 0, 


gdje je t —> R(t) funkcija rizika pri procjeni nepoznatog parametra t procjenite- 
ljem T. Relacija (68) omogućuje da se dobije uvid u veličinu greške (očekivanu 
kvadratnu grešku) pri procjeni nepoznate veličine h(t ) procjeniteljem h(T): 

Ako se želi dobiti uvid u nepristranost Pri procjenjivanju nepoznate veličine 


h(t) procjeniteljem h(T), mora se pretpostaviti da je h bar dva puta derivabilna 
funkcija. Aproksimacijom funkcije h u okolini točke t s prva tri člana pripadnog 
Taylorova polinoma dobiva se | 


h(x) = h(t) + h (D# —t)+ OTE — t)*. 


amis 


ha 


wget <: 


l 
l 
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A NA 


Stavljanjem # = T'i uzimanjem očekivanja lijeve i desne strane, dobiva se 


Eh(T)] = h(t) + KOLA — 1+ RODIO ui 


Budući da je E[T = +) = ET Ples ko b(t) pristranost procjenitelja T pri procjeni 
parametra t, dok je E(T — t)?] = R(4) 


t(t) odgovarajuća očekivana kvadratna greška, 
naposljetku se dobiva 


(69) E[N(T)] 2 h(t) + h'(1)b(1) + SKORO), € 0. 


Iz (69) može se zaključiti kada će MT) biti bar približno nepristrani procjenitelj za 
h(t). Slučaj h'(t) = 01 R(t) = 0 očigledno nije zanimljiv. Ako je ispunjen uvjet 
b(t) = 01 h"(t) = 0, onda će također biti E[h(T)] = h(t), što znači da će h(T) biti 


približno nepristrani procjenitelj za h(t (t), ako je T nepristrani procjenitelj za ti graf 
funkcije t +> h(t) ima zakrivljenost nula, tj. riječ je o pravcu. 
Svojstvo invarijantnosti omogućuje, na primjer, da se ustanovi da je statistika 


ML-procjenitelj za standardnu devijaciju o normalne razdiobe N(p, o“). Ovdje je, 


naime, t=d0ih(t) = vi = o, pa kako J be 5? ML procjenitelj za o“, invarijant- 


nost nam jamči da je je h(52) = = VS? ML-procjenitelj za o. Primijeni li se 
formula (68) radi približnog dobivanja odgovarajuće funkcije rizika 1 pozivajući se 
na formulu (48) dobiva se 


2n —1 
ŽdAc 3 
g 12 o pda 


što omogućuje određeni uvid u očekivanu kvadratnu grešku pri procjeni standardne 


devijacije normalne razdiobe N(, o*) procjeniteljem 2/. Primjeni li se, pak, formula 
(69), dobiva se 


1z čega se razabire da je pristranost procjenitelja X Pr1 procjeni standardne devija- 
cije s normalne razdiobe N(1, o?) približno jednaka 


U mnogim praktičnim situacijama potrebno je procijeniti nepoznatu vjerojat- 
nost P,(I) = P(a< X <b)a < b, da promatrana slučajna varijabla X poprimi 
vrijednost iz intervala / = (a,bl]. Očigledno j je P,(l) određena funkcija parametra 


t, pa se može pisati P,(1) = h(t hl € 0. Ako se raspolaže ML-procjeniteljem T 
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za nepoznati parametar t, onda je h(T), na temelju svojstva invarijantnosti, ML- 
-procjenitelj za nepoznatu vjerojatnost P,(1). Stavi li sea = —ov ib = x, vidi se 
da je P pripadna razdioba vjerojatnosti. Tada je h(T') = F5(z) ML-procjenitelj za 
vrijednost M(z) funkcije razdiobe vjerojatnosti slučajne il obe XutočkizE€R. 


Tako, na primjer, ako se želi naći ML-procjenitelj za vjerojatnost da vijek 
trajanja X nekoga tehničkog uređaja ne bude veći od z (z > 0) vremenskih jedinica, 


1 
uz pretpostavku X — Ex (< 


). tada je riječ o tome da se procjeni 
9 


h(ao) = P(X < 2) = F,,(z) = 1 — exp (-2) | 


U 6. primjeru izvedeno je da je statistika A=X ML-procjenitelj za parametar 
Qg, tako da se na temelju svojstva invarijantnosti zaključuje da je statistika 


iz (44) i (68) proizlazi da je 


9 
2 g ŽE 
E(h(A9) — h(ao))"] = == exp | -—> 
[(M(A0) — 1(ao))"] = rex (2 
očekivana kvadratna greška pri procjeni vjerojatnosti P(.X < £) procjeniteljem 


1 — exp (-5) 


U 6. primjeru također je pokazano da je X nepristrani procjenitelj za parame- 
tar ag, a primjenom formule (69) dobiva se 


El1-ep(-2 a 1 —exp mA pra Ko exp =. 
Ke QQ 2nag \ag a0 


što pokazuje da statistika 1—exp (-5) , kao procjenitelj za nepoznatu vjerojatnost 


P(X < z), približno ima pristranost 


ba-— E — 2) exp (-£) ' 
2naog 3 44) 


1Z čega se vidi da za z = 2a9 imamo približno nepristrani procjenitelj. 


Korisno je uočiti da u izvedenim formulama za pristranost imamo faktor — 
n 


) 


što znači da za velike n (n > 00) praktički imamo nepristrane procjenitelje. 


aias 


aore motri 


NT NE a 
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Svojstvo invarijantnosti ML-procjenitelja vrijedi, dakako, i u višeparametarskom 
modelu, tj. kadajet = (t,,...,tx). Ako su, dakle, T1,...,T% ML-procjenitelji za 
nepoznate parametre ty,...,tx, tada je h(Tl,...,1%), gdje je h određena realna 
funkcija & realnih varijabli, ML-procjenitelj za nepoznatu vrijednost Nit gas teh 


Tako, na primjer, ako je riječ o uniformnoj razdiobi U(a,b) na intervalu 


(a,b), ML-procjenitelji za parametre a i b su A = min(X1,...,Xn) Il B = 
= max(X;,...,Xn) (v. zad. 11). Ako nas, pak, zanima procjena za parametar 


a + b PoE PON a ram 
m= = (sredina intervala), ili recimo za parametar 1 = b — a (širina inter 
DO 
, Koko a = A+8. ama I 
vala), onda nam svojstvo invarijantnosti jamči da su M = ho e 


odgovarajući ML-procjenitelji za parametre m i [. 


7. Efikasnost 


Opći kriterij za vrednovanje različitih procjenitelja istoga nepoznatog parame- 
tra sadržan je u minimaks-principu (v. VI.L), koji se za nepristrane procjenitelje 
Svodi na konstataciju da je najbolji onaj procjenitelj koji ima najmanju varijancu. 
Stoga je logično da se kaže da je nepristrani procjenitelj Ti efikasniji od nepri- 
stranog procjenitelja ii za nepoznati parametar t, ako vrijedi 


(70) VITi] < VID), Vile 6. 


Drugim riječima, pri procjeni nepoznatog parametra t vrijednošću ZLI ije 
Procjenitelja 1 očekuje se manja kvadratna greška nego pri procjeni vrijednošću t2 
manje efikasnog procjenitelja jos Stoga se prirodno nameće zadatak da se pronađe 
(ako Postoji) najefikasniji procjenitelj, tj. onaj kojemu pripada najmanja varijanca, 
ili bar da se odredi donja granica za vrijednosti varijanci svih mogućih nepristranih 
Procjenitelja za parametar £. ' 
Da bi se riješio taj zadatak treba uvesti još neke dodatne pretpostavke u već 
Opisani teorijski model.  Vjerojatnosna razdioba P, u klasi P = (A te 0) 
dopuštenih razdioba obično je diskretna ili kontinuirana razdioba vjerojatnosti. 
Kontinuirana razdioba vjerojatnosti zadana je svojom f.g.v. z> fi(2),z € R. 
No, za fiksirano z € R može se promatrati 1 funkcija t > ful2),t € O, pa se 
zahtijeva da ta funkcija bude ?dovoljno glatka", t). da postoji neprekidna druga 


392 
za 10 feta ' j nm davati : 
derivacija o te da je dopušteno derivirati pod znakom integrala. Tada se, 
a E Ke 
nane, može definirati izraz 


(71) I(t) = / E In Ke) bla) do a'E (Zm 109) | : 


PII čemu se [(t) zove Fisherova informacija vjerojatnosne razdiobe P,. 
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ao ra. a o e o e = 


Ako je riječ o diskretnoj vjerojatnosnoj razdiobi P,, onda se Fisherova infor- 
macija definira formulom 


9 2 9 Z 
(72) I(t) = a E ln Pi(aj ] Plaj) —E (7 ln P(x)) | A 
gljeje A =(aj€ER:j=1,2,.. .) skup vrijednosti za klasu diskretnih razdioba Pi, 
odnosno skup vrijednosti diskretne S.V. X (v.IV.1). Pritom je P,(aj) = P(X = dj) 
i također se pretpostavljaju odgovarajući uvjeti za funkciju t > P(aj),t € 0. 


Sada se može izreći i čuvena Rao-Cramerova nejednakost, koja kaže da za 


svaki nepristrani procjenitelj T' parametra t, u opisanom teorijskom modelu, 
vrijedi 


(73) 


zi BI 


E nI(0 ' 


t€ 0, 


gdje je n veličina uzorka. 


Veličina TO) zove se Rao-Cramerova donja granica za varijance nepristranih 
n 


procjenitelja. 


Dokažimo Rao-Cramerovu nejednakost kod kontinuiranih razdioba. Neka je 


T=hM,...,X,) nepristrani procjenitelj za parametar £. Na temelju definicije 
matematičkog očekivanja i pojma nepristranosti može se pisati 


Pas 


CO (0.9) 


E[T] = es) h(zi,. o Zn)felri) o fi(an)dzr- dz, = 


== A0 — oo 


pri čemu se, dakako, imalo na umu da $u A1,...,; An nezavisne slučajne varijable. 
Deriviranjem te jednadžbe po t dobiva se 


CO OO 


n « : 

e) 

ra) ' . LEPE ) vi i) fizi)... fltn)dzi:... dz, = 1, 
—oo —oo i=1 . 

pri čemu se imalo na umu da se derivacija produkta može izraziti formulom 


d > 1 | m 
(75) ruli) ++ f(2n)] = AE ren krili JiiTi aga Pl), 


te da se derivacija logaritma može zapisati 


0 
(76) Sim Jaime Er Le diet, gn: 


fi (2:) reli 


' J viaoslah = Me : : 
Stavimo Z,; = pm lrfr 66) = mame n, pa se vidi da su Zi, ..., Z,, nezavisne s 
C 
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Ako se još stavi Z = m Va E1860 | .., Xp), Jednadžba (74) može se zapisati u 


i=1 
obliku 
ss h(ay,...,2n)9(21, > Zn)filzi) << fulzn) dra eng Ek 


odnosno, primjenom operatora očekivanja E može se zapisati u obliku 


(77) PI isova: Koda, ter nzi=tv 


Polazeći, pak, od be ineljojidko Ka h(z)da=li=1,...,n, deriviranjem 


po t i uzimanjem u obzir (76), dobiva se 


00 


[ Sho haeolHde)dn=0, i=1.)m 


— oo 


što se može zapisati i kao E[Z;] = 0. Iz toga slijedi da je E[Z] = 01 da je 


n n 9 2 
(78) VIZ] = V bs 2 = jE [22] = nE (0400) | ' 


Iz definicije kovarijance (v. (30) u VA) proizlazi da se može pisati 
(79) Cov(T,Z) - ETZ) — E[T] E[Z]. 

Budući da je E[Z] = 0, iz (77) 1 (79) slijedi 

(80) Cow(f, Z)=1. 


Primjenjujući na s slučajne varijable f 1 Z poznati rezultat da kvadrat koeficijenta 
korelacije ne premašuje jedan (v. V. 4), može se pisati 


(Coy(f, 2): 
tati ij i a 
MINICI 
što s obzirom na (71), (78) i (80) postaje (73), tj. Rao-Cramerova nejednakost. 


Slično se može izvesti Rao- Cramerova nejednakost i za diskretne vjerojatnosne 
razdiobe P, (t € 0) (v. zad. 23). 


Sada je jasno da će nepristrani procjenitelj To, za koji vrijedi 


m m 
(81) VIfo) + iri“ 


biti najefikasniji procjenitelj za šala ned: tf u klasi svih nepristranih procjenitelja. 


te 0, 


| 
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8. primjer 


Neka je, kao i u 6. primjeru riječ o procjeni parametra a eksponencijalne 
razdiobe Ex(a). Vidjelo se, zapravo, da je prikladnije promatrati parametar ag = 


= —,1 tada se pokazalo da je Ar= X nepristrani ML-procjenitelj za parametar 
a 


PI 1 
a9, uz funkciju rizika ao > R(ag) = V[Ao] = —ag (ao > 0). Ako se, pak, izračuna, 
n 


prema (71), odgovarajuća Fisherova informacija, dobiva se 


coon (beo(-2)))]-4 


iz čega se razabire da je Rao-Cramerova donja granica 


1 ad Za 
———— = —=VIA 
nl(ao) nn Ao], 


što znači da je Ao = X najefikasniji nepristrani procjenitelj za nepoznati parametar 
Ag = — eksponencijalne razdiobe Ex(a). 

a 4 
9. primjer 


U 5. primjeru nađeno je da je A=X nepristrani ML-procjenitelj za parametar 

A (A > 0) Poissonove razdiobe Po(A). Također je određena i odgovarajuća funkcija 

rizika A > R(A) = —A,A > 0. Da bi se pokazalo da je Ai najefikasniji nepristrani 
n 


procjenitelj za parametar A, treba izračunati odgovarajuću Fisherovu informaciju. 
Prema (72) dobiva se 


Oj=E (g (S 0-0)" sE e Z Sa VAI 


Budući da je za Poissonovu razdiobu V[X] = A (v. IV.3), dobiva se 


iz čega odmah slijedi da je Rao-Cramerova donja granica 


1 1 e 
= A = VM 
nI(A) nn Al, 
što pokazuje da je A=xX najefikasniji nepristrani procjenitelj za parametar A 


Poissonove razdiobe Po(A). 
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10. primjer 


n 
' Jo 123 7 X) nepristrani PTO- 
n — l i=1 


cjenitelj za parametar o* normalne razdiobe N(A, o"). Stavljajući o* =t1 polazeći 
1 (z — u)? 
od f.g.v. r)= —exp|- -———— 


formule (71), dobiva se pripadna Fisherova informacija 


U VI.3. izvedeno je da je statistika S“ = 


normalne razdiobe N(p,t), primjenom 


| e l l (X — u)? 
= as ma grma ma 
Hi)y=E S 5 lnv2m 3 In SY 


Budući da je u normalnoj razdiobi N(h, a") četvrti centralni moment 
na = E[(X — 1%] = 30% = 347, dok je E[(X — 10)*] = VX] = o* = t, naposljetku 


se dobiva 


1 
(0) = zm > 0, 


tako da Rao-Cramerova donja granica glasi 
l 200. 
nI(t) nn Mo 


oku a s 4 saa B . 
Uspoređujući to s varijancom V[S%] = [9 odmah se vidi da za n > 1 nepri- 
n— 


strani procjenitelj S? parametra g" ne postiže Rao-Cramerovu donju granicu, što 

upućuje na zaključak da 5% nije najelikasniji procjenitelj za nepoznatu varijancu 
. 2 

norinalne razdiobe N(pu, o“). 


Općenito se funkcija 


(82) eltjE tog te o, 


nvITJ (0 


defi linirana kao omjer između Rao-C ramerove donje granice i varijance procjeni- 


telja T' zove efikasnost procjenitelja 1 


Za najefikasnije procjenitelje očigledno je efikasnost jednaka jedinici, dok 
općenito vrijedi | 
O < e(t) < 1. 


2 SRNE : < .. 2) <, 
Efikasnost procjenitelja S“ pri procjeni nepoznate varijance o normalne raz- 
n — 


diobe N(jr, a“) iznosi e(t) = (a?) — o iz čega se vidi da efikasnost ne OVISI O 


parametru o* i da je za velike uzorke (n —> 20) ta efikasnost vrlo bliska jedinici. 


——_——_——_—_———_————____——_______ P_— > —_  ommmnmnameĐ__—o_—_—_ aa _aa ——.X A __B_Č _v____—_—__——————— — 
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8. Asimptotska svojstva procjenitelja 


U dosadašnjim razmatranjima procjenitelj nepoznatog parametra razmatran je 
kao određena statistika, tj. funkcija fiksiranog broja n (n € N) nezavisnih slučajnih 
varijabli Xi,..., Xp sa zajedničkom razdiobom vjerojatnosti. Pretpostavljalo se, 
dakle, da je veličina n slučajnog uzorka (X,,..., X,) konstantna veličina. Očito je, 
imeđutim, da u primjenama teorije statističkog zaključivanja veličina uzorka može 
varirati. U nekim situacijama procjena nepoznatog parametra donosit će se na 
temelju malog broja mjerenja, odnošno opažanja, dok će u drugim okolnostima 
istraživač raspolagati velikim brojem mjerenja. S druge, pak, strane, pokazat će 
se da mnoga svojstva procjenitelja, na kojima se temelji praktična primjena teorije 
statističkog zaključivanja, bitno ovise o veličini uzorka. Postupak mjerenja, odnosno 
opažanja, kojim se dolazi do statističkih podataka L1,.< on, redovito je povezan s 
odgovarajućim troškovima ovisnima o broju mjerenja n, tako da sve to upućuje na 
potrebu da se istraže svojstva procjenitelja s obzirom na variranje veličine slučajnog 
uzorka n. 

U tu svrhu uvodi se, za procjenitelja nepoznatog parametra t, oznaka 


(83) Ta = MK, Kan EN, 


da bi se istakla 1 ovisnost o n. Relacijom (83) definiran je, zapravo, beskonačni niz 


slučajnih varijabli 74, 12,..., qs ..., pa se prirodno nameće ideja da se razmotre 
pitanja u vezi s konvergencijom toga niza. Rezultati koji se tako dobiju obično se 
zovu asimptotskim svojstvima procjenitelja. 

Primijetimo najprije da gotovo sve izvedene formule za fukciju rizika sadrže n 
(v. npr. (5), (9), (17), (22), (23), 1td.), pa se i za funkciju rizika uvodi oznaka 


(84) R,(l) = E(Tu-0"hteoneN. 


Za svaki t € O formulom (84) definiran je beskonačni niz realnih brojeva, pa ako 
taj niz konvergira k nuli za svaki t € 0, tj. vrijedi 


D21 =01€0, 


lim E(Z, — 


1-00 


kaže se da je 7, konzistentan procjenitelj za parametar t. 


Svojstvo konzistentnosti Jami, zapravo, da se srednja kvadratna greška pri 


aproksimaciji nepoznatog parametra t vrijednošću t,, konzistentnog procjenitelja di 
može učiniti po volji malenom ako se se samo uzme dovoljno velik broj n mjerenja, 
odnosno opažanja promatrane slučajne varijable X. Ono također pokazuje da bi 
se s beskonačno velikim uzorkom dobila točna procjena. Naravno da je u praksi 
nemoguće postići beskonačno velik uzorak, ali je također jasno da je konzistentnost 
vrlo poželjno svojstvo. 

Gotovo svi razmotreni procjenitelji imaju svojstvo konzistentnosti. Da postoje 
i nekonzistentni procjenitelji pokazuje relacija (9), iz koje se vidi da je za a # 


£ 1, lim Ri(p) = oo, za svaki p 0, a to znači da procjenitelj aX (a £ 1) nije 
Nn—> co ! 
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konzistentan procjenitelj za parametar p, binomne razdiobe B(1,p). Zaa = 1 riječ 


jeo procjenitelju X ion je, dakako, konzistentan procjenitelj za p, što se vidi 1 iz 
relacije (5), iz koje proizlazi da je 


lim R(p) = lim La —p)=0, pe [0,1]. 
n—>o00 n—>o00 n 
Pojam konzistentnosti definira se ponegdje i drukčije. Kaže se, naime, da je 
I: (n € N) konzistentan procjenitelj za parametar t, ako za svaki 6 > 0 vrijedi 


(86) lim P(IZ, — : > 6)=0, tc6. 


Tom definicijom konzistentnost se opisuje pomoću vjerojatnosti da apsolutna raz- 
lika između procjenitelja i nepoznatog parametra premaši proizvoljno maleni pozi- 
tivni broj 6, za koju (vjerojatnost) se zalitijeva da teži nuli kada veličina uzorka n 
teži u beskonaomo:t 

Formulom (86) je, inače, definiran pojam stohastičke konvergencije, ili kon- 


vergencije po vjerojatnosti, niza slučajnih varijabli 1 ...)Tn,... neslučajnoj 
veličini t. To se zapisuje | 
(87) i, lim st Ta = t, 

n—>oo 


pa se može reći da konzistentan procjenitelj stohastički konvergira parametru koji 
procjenjuje. Na temelju Čebiševljeve nejednakosti (v. (35) u IV.4) proizlazi da je 


Ef. —1)2) > > #2P(1,- 1] > 6), 


što pokazuje da iz (85) slijedi (86), a to znači da je svaki konzistentni procjenitelj 
po prvoj definiciji, konzistentan 1 po drugoj. Obratno općenito ne vrijedi 1 stoga 
ćemo se redovito oslanjati na prvu definiciju, izraženu formulom (85). 

U VI.7. uveden je pojam efikasnosti procjenitelja (v. (82)), a vidjelo se 1 da 


neki vrlo značajni procjenitelji, kao na primjer Sž u 10. primjeru, nisu ai 
n — 
Zi 
u smislu da im efikasnost iznosi jedan. Izvedeno je, naime, da je e(a“) = 12 


CEO se razabire da efikasnost ovisi o veličini uzorka n, pa je prirodno da se, umjesto 
(0%), piše e,(5%) i promotri 


n—1 


lim m. ' lim =1, 


n-—> 090 n 


što pokazuje da je, u asimptotskom smislu (n —> 00), efikasnost procjenitelja Se 
jednaka jedan. 


Zato se općenito, u vezi s nizom procjenitelja T, (n € N), promatra niz pripadnih 


efikasnosti e,(t) (n € N), i ako postoji 


n—>oo0 


(88) lim_en(t) = e0(1),t € 6, 
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onda se funkcija t > eg(t) zove asimptotska efikasnost procjenitelja iva 
Očiglednoje0 < eo(t) <I(t€0O)iakoje eo(t) = 1 kaže se daje procjenitelj 


T, asimptotski efikasan. 


Tako se, na primjer, za korigiranu uzoračku varijancu S% može reći da je, kao 
procjenitelj za nepoznatu varijancu o* normalne razdiobe N(u, o“), asimptotski 
efikasan procjenitelj, iako je za konačne n € N njegova efikasnost manja od jedinice. 

Za konzistentne ML-procjenitelje općenito vrijedi da su to asimptotski efikasni 
procjenitelji, ako već nisu najefikasniji. 

Na kraju ćemo razmotriti još jedno asimptotsko svojstvo procjenitelja koje 
će imati veliku važnost i primjenu u različitim problemima teorije statističkog za- 
ključivanja. Primijetimo najprije da je procjenitelj T,, za svaki n € N, određena 
slučajna varijabla kojoj pripada odgovarajuća vjerojatnosna razdioba, općenito 
ovisna o nepoznatom parametru t, tj. o vjerojatnosnoj razdiobi P, pretpostav- 
ljenoga teorijskog modela. 

Tako smo u 1. primjeru imali procjenitelj X = .X,, za nepoznati parametar 
p binomne razdiobe B(1,p), kojemu je pripadala razdioba vjerojatnosti opisana 
formulom (4). 

Također smo u VI.4. pokazali da uzoračkoj aritmetičkoj sredini X, kao pro- 
cjenitelju za nepoznati parametar u normalne razdiobe N(pu, a2), pripada normalna 


razdioba N (o o) ' 
n 


Općenito je problem pronalaženja vjerojatnosne razdiobe procjenitelja T,, u 
teorijskom modelu s klasom dopuštenih vjerojatnosnih razdioba P =(P,:t€ 60), 
vrlo složen i samo u nekim posebnim situacijama može se dobiti jednostavno rješenje 
uz konačni n € N. Međutim, uz vrlo općenite pretpostavke može se dobiti asimp- 
totsko (n —> oo) rješenje problema. 'To rješenje temelji se na čuvenom rezultatu iz 
teorije vjerojatnosti (v. [38]), poznatom pod nazivom centralni granični teorem 
(CGT). Jedna od verzija CG T-a izriče slijedeće: 


Ako je Mi (2 = 1,2,...) niz nezavisnih slučajnih varijabli kojima pripada ista 
vjerojatnosna razdioba s očekivanjem pu i varijancom o2 (0 < o? < 00) 1 
n 


Ya= 2 Xi, tada slučajne varijable 
iči 


imaju svojstvo da pripadajući niz funkcija razdiobe vjerojatnosti 


Gnižjs PIZZE 2) naeN 


konvergira funkciji $(2) = zad [ exp (g: 5 dz, tj. funkciji razdiobe vje- 
m 


rojatnosti standardne normalne radiebe N(0,1). 
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Kaže se Još da niz slučajnih varijabli Z, (n € N) konvergira po razdiobi 
slučajnoj varijabli Z < N(0, 1) i piše se 


Zur, 
Za slučajnu varijablu Y,, kaže se, pak, da je asimptotski normalna. 
ida i = Y, — Elfa 
Budući da je E[Y,] = nui V[Y,] = no", odmah se vidi da je Z, = aa | i 


pa asimptotska normalnost, zapravo, znači da se za velike n može uzeti da Y,, 
približno ima normalnu rilltobu N(nu, na“). 
Sada je jasno kako će se definirati pojam asimptotske normalnosti procjenitelja 


og 


Reći će se da je Ti asimptotski normalan procjenitelj ako niz slučajnih 
varijabli 


Tj La ET.) 


=== Lk, 
V[7,] 


konvergira po razdiobi standardnoj normalnoj slučajnoj varijabli. 


Ako je riječ o nepristranom procjenitelju i parametra t, onda je E[T, ks 
VIN '= = Ru(l), gdje je R,(d ) vrijednost funkcije rizika, pa se može reći da za 


nepristrani, asimptotski normalan procjenitelj ip nepoznatog parametra t za velike 
n približno vrijedi 


NN 


(89) T,  N(t, (1). 


11. primjer 


iijenko == l 
Vidjeli smo da se uzoračka aritinetička sredina X, = — > Xi vrlo često 
bi=1 
pojavljuje kao procjenitelj za neki parametar, najčešće za se oznake očekivanje 
ae E[X] promatrane slučajne varijable X. Očigledno se može pisati Xa mai 


gdje je X = 5) AraNXi,..., X, su nezavisne slučajne varijable kojima pripada 
i=1 


: . . ; nur š i de 2 4: : 
ista razdioba vjerojatnosti s očekivanjem pu i varijancom V[X] = a. Budući da je 


E[&] =a VIA] = pr može se pisati 


— u mie An — Nu Ya — Nu 
VL.) Ja ov 


= Žibs 


iz čega se vidi da niz slučajnih varijabli Z,, (n € N) zadovoljava uvjete CG'T-a, a to 


_ 


upravo znači da je X, asiniptotski normalan procjenitelj za nepoznato očekivanje 
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Može se, prema tome, reći da za velike n približno vrijedi 


n 


(90) Ka Nu zo) ' 


Koliko je bitna pretpostavka u CGT-u da je X, zbroj, a ne neka druga funkcija 
nezavisnih slučajnih varijabli /X,,.. .Xn, pokazuje nam primjer ML-procjenitelja 


Ne max(X; )*.., Xp) za parametar t uniformne razdiobe U(0,£), kojije razmatran 
u 2. 14. primjeru. Uzme li se, naime, u obzir (21) i zatim promotri niz slučajnih 


varijabli 
T, - ED] mne 
a : 


pokazuje se (v. [16]) da taj niz ne ka a po razdiobi standardnoj normalnoj 
slučajnoj varijabli, nego slučajnoj varijabli kojoj pripada tzv. Weibullova razdioba. 


To znači da 7; nije asimptotski normalan procjenitelj. 


nEN, 


9. Bayesova metoda 


Određivanje procjenitelja za nepoznati parametar na temelju načela najveće 
vjerojatnosti 1 načela jednakosti momenata zasniva se samo na informaciji koju 
o nepoznatom parametru daje niz empirijskih vrijednosti ZL, En Postoje, 
međutim, određene situacije u praksi kada istraživač raspolaže i određenom apri- 
ornom informacijom o nepoznatom parametru, koja se obično temelji na subjek- 
tivnim spoznajama istraživača, pa je riječ o tome da se izgradi teorijski model koji 
će odgovorati takvoj situaciji. Jedan takav model poznat je kao Bayesova metoda 
procjene parametara. 


Osim uobičajene pretpostavke da je riječ o klasi P = (Pp, :t € 0) dopuš- 
tenih vjerojatnosnih razdioba sa skupom 06 dopuštenih vrijednosti parametra, 


u Bayesovoj metodi se još pretpostavlja da je poznata tzv. apriorna razdioba 
vjerojatnosti parametra £. 


Da bi se lakše shvatilo načelo funkcioniranja Bayesove inetode, najprije će se 
razmotriti jedan primjer. 


12. primjer 


Neka je, kao 1 u 1. primjeru riječ e) procjeni parametra t = p (proporcija 
neispravnih proizvoda) na temelju n = 9 mjerenja £1,22,€T3,T4 1 £5, pri čemu se 
Još raspolaže i informacijom da je apriorna vjerojatnosna razdioba parametra t 
diskretnog tipa i da je zadana tablicom Že 

Nepoznati parametar t razmatra se, zapravo, kao diskretna s.v. T sa skupom 


vrijednosti (ty = 04,42. = 0,5) 1 pripadnim vjerojatnostima P(T =t1) =q =0,8 
GP =k)= po 


i 5 : vi 
=== m mrem fennonnp on : 


m po 
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| 
| 


Tablica 2. 


Kako je već rečeno u 1. primjeru, ri (1 =1, gua 9) može poprimiti vrijednost 0 
(proizvod nije neispravan) i vrijednost 1 (proizvod je neispravan), pa stoga statis- 


tika X = 06 +Xo+X3+MN4 + X5) označuje relativnu frekvenciju neispravnih 
9 


proizvoda u slučajnom uzorku veličine n =>) . 
Uz pretpostavku da je stvarna vrijednost nepoznatog parametra baš t (0 < t < 
< Is = BX = Xi + X2 + X3 + X4 + A5 ima binomnu razdiobu B(5,t). To 


omogućuje da se izračunaju vrijednosti 


5\ x E ma mo 
Dk/i Zi (Ja) : l— 12 k = 0,1,2,3,4,9, 


| > rak avg k 
pri čemu px/i označuje uvjetnu vjerojatnost da statistika X poprimi vrijednost ra 


uz uvjet da nepoznati parametar ima vrijednost t;. Rezultati proračuna prikazani 
su u tabl. 3. 


Tablica 3. 


0,078 0,259 0,345 0,231 0,077. 0,010 
0,031 0,156. 0,313. 0,313. 0,156 0,031 


— MENI k , 
Budući da je simultana vjerojatnost da s.v. X poprimi vrijednost 5 is.v. T 


vrijednost t; izražena formulom 


> & pj: 
(91) P(>2 = do = ti) a P(T = ti) P(A = 5/T = ti) = qiDk/i, 
J 
i=1,2, k=0,1,2,3,4,5, 
bit će 
— o & | 
(92) P(A z 5) = qđIPk/1 Te Q2Pk/2, k = 0, 1,2,3,4,9. 


Sada se može izračunati i uvjetna vjerojatnost da nepoznati parametar poprimi 


vrijednost t; uz uvjet da je statistika X poprimila vrijednost a tj. može se pisati 


PO = o li) 
B=3) 


i 


(93) PT =t/X = 


Ve b2 k=012949; 


t 


1 
| 
i 
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Iz tabl. 2. 13. primjenom formula (91), (92) i (93), dobiva se tabl. 4, koja sadrži 


vrijednosti q;/k. 
Tablica 4. 


2 3 4 5 


0,912. 0,870 0,816 0,748 0,665 0,571 
0,088 0,130 0,184. 0,252 0,335 0,429 


U tablici 4. prikazana je, zapravo, informacija o nepoznatom parametru sadr- 
žana u apriornoj vjerojatnosnoj razdiobi i u statistici X, za koju smo već ranije 
utvrdili da je dobar procjenitelj za nepoznati parametar t. Ako se, na primjer, za 


statistiku X dobije vrijednost € = R (k = 1), onda tabl. 4. sugerira da se, umjesto 


apriorne razdiobe, za nepoznati parametar usvoji aposteriorna razdioba 


< u g] 
na=P (T =04/X = :) = 0,870, (nu=P T =0,5/X = :) — 0,130. 


9 


Matematičko očekivanje te razdiobe, tj. uvjetno očekivanje s.v. T' uz uvjet da je 
1 


A Ez 5 iznosi 


x2. 9 | . 
E T/X — ; = tiqu/i + toq2ji = 0,4 :0,870 + 0,5 -0,130= 0413 =, 


*pa se čini razumnim uzeti vrijednost ty = 0,413 kao procjenu nepoznatog parametra 


t, kada se kao vrijednost statistike X dobije 5 Da se uzela u obzir samo apriorna 


razdioba, matematičko očekivanje iznosilo bi 


E(T]=17=0,8:0,4+0,2-0,5 = 0,42. 


Na temelju tabl. 4. općenito se može izračunati uvjetno očekivanje s.v. T' uz 


uvjet da je statistika X poprimila vrijednost —, pa je 
9 


2 
se NEE i 
04 —EIT/X = - =) tiqi/k, k=0,1,2,8,4,5, 
( ) k TI 2 će di/k J 


1 tx se uzima kao procjena za nepoznati parametar t u smislu Bayesove metode. 
Izvedu li se računske operacije naznačene formulom (94), dobiva se tabl. 5. 
Tablica 5. 


DRJENEA 


4 | 0,409 | 0,413 | 0,418 0,433 | 0,443 


ISKON. PPR DE 


PV ATP-A LO URLS VALRVNE V POKOPTOK 
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Ako se, na primjer, opažanjem dobije relativna frekvencija : (k = 3), onda 


će se kao procjena za parametar t, u smislu Bayesove metode, uzeti vrijednost 
ta = 0,425, dok bi procjena nepoznatog parametra samo na temelju menom sta- 


tistike X, bez uzimanja u obzir apriorne razdiobe parametra, iznosila t = : Ub: 


Ako bi se, umjesto diskretne razdiobe definirane tablicom 2, za nepoznati 
parametar ft pretpostavila uniformna razdioba U(0, 1), kao apriorna razdioba, onda 
ulogu tabl. 2. preuzima odgovarajuća funkcija gustoće vjerojatnosti 


0, za Ge0rtzi 
(9 oN Ruke roi, 
a umjesto forinule (91) imamo 


c 22, )K 
(5) = jior(X = od = !) : 


označuje gustoću vjerojatnosti slučajnog vektora (X,T). Budući 


Pri černu nez 


da s.v. 5X < B(5,4), onda je 


p(X = 5/T=1) = (g)PO- 0% k=0,1234.5 
5 A 


tako da se konačno dobiva 


(96) IEĐDE jea o“ ;, Za e U hat 


0 , inače. 


To omogućuje da se dobije forinula, analogna formuli (92), koja glasi 


1 
pa 1 : 
(97) P(Y=5)- (1) [6a-o0tar= g. k=0,1,2.5,45, 
5 0) 
O 


dok je analogon formule (98) 


J 


0 
i ut r | 
se ap nae 


= ' h 
PlLAJE 5 


Sada se može izračunati 1 


l 


l 
)9 Zvai k 4 Deky 2 
(99) E TAX =5|=h= [uudoar=o(, i pove t) dt, 
( 


Nd do i o dr zt ono papar sem 


| 
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t]. uvjetno očekivanje slučajne varijable T' uz uvjet da je statistika X poprimila 


44 


vrijednost 5 Broj ti (Kk =: (02; 3, 4,5) uzima se kao procjena za nepoznati 


parametar t u smislu Bayesove metode. 
Ako se, prema formuli (99), izračunaju odgovarajuće vrijednosti, dobiva s se 


tabl. 6. U trećem retku tabl. 6. navedene su vrijednosti FT = — statistike X . 


Tablica 6. 


Ako se nepoznati parametar t = p (proporcija neispravnih proizvoda) procje- 
njuje samo na temelju ML-procjenitelja A_i ako se opažanjem dobije konkretna 


vrijednost z = — = 0,4, onda bi se ta vrijednost uzela kao procjena za nepoznati 


9 
parametar p. Ako se, pak, procjenjuje Bayesovom metodom, uz pretpostavku da 
parametru p, kao slučajnoj varijabli, pripada uniforimna i dole U(0,1) i ako se 


dobije 5 kao vrijednost statistike X, onda ć će se kao procjena za nepoznati parame- 


tar p uzeti vrijednost to = : a 0,482. 

Zaključimo: Ako se nepoznati parametar p procjenjuje samo na temelju 
apriorne vjerojatnosne razdiobe, onda se čini najprirodnijim uzeti kao procjenu 
očekivanje te razdiobe, tj. vrijednost E[T] = 0,5, jer je tada, prema (69) iz IV.6, 
očekivana kvadratna greška najmanja, 

Ako se, pak, procjenjuje pomoću ML- procjenitelja X,a da se ne uzima u obzir 
apriorna razdioba, onda su vrijednosti procjena navedene u trećem retku tabl. 6. 

Ako se, pak, uzmu u obzir i apriorna vjerojatnosna razdioba nepoznatog 
parametra p 1 vrijednosti statistike ži onda su odgovarajuće vrijednosti procje- 
ne parametra p navedene u drugom retku tabl. 6. 1 za njih se kaže da su određene 
u smislu Bayesove metode. 

Prijeđimio sada na općenito azind bije Bayesove metode procjene nepoznatog 
parametra t € O u teorijskom modelu s klasom P = (P, :t € 0) dopuštenih vjero- 
jatnosnih razdioba. Ovdje se pojavljuje još i apriorna vjerojatnosna razdioba /7/ na 
skupu 0, tako da će se govoriti o slučajnoj varijabli T' kojoj pripada vjerojatnosna 
razdioba 11. | 

Neka je na slučajnom uzorku ( Xi <<.) An) definirana statistika 
Y=NhMXi,...,Xn), pa se može promatrati slučajni vektor (T, X), kojemu, dakako, 
pripada određena dvodimenzionalna razdioba vjerojatnosti. Tada se može govoriti 
i o uvjetnoj razdiobi slučajne varijable T' uz uvjet daje s.v. Y poprimila vrijednost 
y, te o odgovarajućem uvjetnom očekivanju E[T'/Y = u]. 


tanohće! 


tsh: 
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Budući da je y > E(T/Y = = 6(y) funkcija od y, onda je Ty = BAB 
— E[T/Y] slučajna varijabla ovisna o slučajnom uzorku (X1,...,Xn)h tJ- određe- 
na statistika koja se zove procjenitelj nepoznatog parametra t u smislu Bayesove 


metode. Vrijednost te slučajne varijable 


Pas 


(100) bh =) 3ET/Y =] 


uzima se kao procjena za nepoznati parametar t u smislu Bayesove metode. Broj 
ty označuje uvjetno očekivanje s.v. T' uz uvjet da je na n-članom slučajnom 
uzorku dobivena vrijednost y= h(Z1,.:.,ZFn) statistike X. 


13. primjer 


Uzmimo da je P = (N(t,a?) :t € R,), pri čemu se pretpostavlja da je o? 
poznato. Treba procijeniti nepoznato očekivanje u = t normalne razdiobe poznate 
varijance, uz dodatnu informaciju da je II = N(uo,09) apriorna vjerojatnosna 
razdioba nepoznatog parametra £. Prirodno je da se kao statistika za procjenu 


nepoznatog parametra t uzme uzoračka aritmetička sredina X, tj). da se stavi 


Y=X= 2 (X1+-:::+Xn). Uvedimo sljedeće oznake: 


n 
f(t,y) - gustoća vjerojatnosti slučajnog vektora (T',Y), 
fi(t) < gustoća vjerojatnosti g.v. T'— N(po, 03), 
fo(U)  — gustoća vjerojatnosti BY, | 
Py(t) - uvjetna gustoća vjerajatnosti s.v. T' uz uvjet da je s.v. Y 


poprimila vrijednost y, 
qu(y) — uvjetna gustoća vjerojatnosti s.v. X uz uvjet da je s.v. T 
poprimila vrijednost £. 


(102) a(v) = za eXP E | | 


Na temelju formule (28) iz V.3. može se pisati 


f(t,9) = fi(Da(9), 
dok se primjenom formule (22) iz V.3. dobiva 


OO OO 


fly) = | rawat= | palya 
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pa formula (26) iz V.3. omogućuje da se dobije 


(103) pt) = 69 ha) 
at) Jo hl)a(y)dt 


Iz (101), (102) i (103), nakon nešto složenijeg računanja, dobiva se 


1 L/t- 2 
(104) Py(t) = —= exp |—- 2) ' 
(0.89) 2x 2 09) 


gdje je 
Nm nyo E Moo? 9 oo? 
H2 = 2 2 kh. E 2 2 
nog +0 nog +0 


iz čega se razabire da je uvjetna razdioba s.v. T', uz pretpostavku da je statistika 
Y poprimila vrijednost y, normalna razdioba N(pu2,g2), a to znači da je 


Py) = ET/Y =y=m. 


Reći će se, prema tome, da je 


> Yog + oo? 
105 i glvja zeme. 
( ) g b( ) nož a 2 


procjenitelj za nepoznato očekivanje t = u normalne razdiobe N(pu,o*) u smislu 
Bayesove_ metode, kada je apriorna razdioba parametra t normalna razdioba 
N(z4o, 04). 

Imajući na umu daje y = £ vrijednost uzoračke aritmetičke sredine, zanimljivo 


je primijetiti da se nepoznati parametar uu procjenjuje, u smislu Bayesove metode, 
vrijednošću 


(106) z nzog + Mod? = oj 


= = 5+ — jo 
g nož + o? Ž g 


koja se može shvatiti kao ponderirani zbroj vrijednosti z ML-procjenitelja X 
parametra 1 i vrijednosti to = E[T] (očekivanje apriorne razdiobe). Iz (106) se 
2 


Sadi doe . u A e 
vidi da se s porastom veličine uzorka n "težina? — > ML-procjene sve više 
og 
4 o sar 
n 
o 
povećava i zan —> oo postaje jedan, dok se "težina" ——"— 5 apriorne procjene sve 
2 
Co. T = 


.. . . . D ze n . sen . . . 
Više smanjuje i za n > co postaje nula. Može se, dakle, zaključiti da je pri velikom 


broju mjerenja (n —> 00) procjena u smislu Bayesove metode praktički jednaka 
ML-procjeni nepoznatog parametra u. 
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Zadaci 


1. 


CIT 


. Dokažite da je Cov(.X, b) =: 


. Dokažite da je uzorački ishodišni moment A, = — 37 X; (r=1,2,.. 


Neka funkcija gubitka ima opći oblik L(t,t) = max |F(2) — Mi(ze)l, gdjeje F 
TE 


f.r.v. 
a) Uzmu li se eksponencijalne razdiobe Ex(t) (t > 0) kao klasa dopuštenih 


[t— e] 


b) Uzmu li se uniformne razdiobe U(0,t) (t > 0) kao klasa dopuštenih raz- 
dioba, onda je 


razdioba, onda je L(t,t) = . Dokažite! 


f . 

, l—--, za t<t 
L(t,t) = t" u 
t pa 

s. za t>1 . 


Dokažite! 


. Dokažite da nepristrani procjenitelj T', koji ima minimalnu varijancu, zado- 


voljava minimaks-princip izražen formulom (24). 


. Neka je .X uzoračka aritmetička sredina n-članoga slučajnog uzorka za slu- 


čajnu varijablu AX, čiji su pix centralni momenti. Dokažite da za centralne 
: Ra l 

momente 7. slučajne ok A vrijede formule: a) 2, = 0,b) 2% = — mo, 
n 


l 


€) R3 = —zM3, d) Pa = lua + 3(n — 1)12]. 


. Izvedite formule (30) 1 (3 b): 


bog. 


13, gdje je uu3 treći centralni moment 


slučajne varijable X. 


. Ako slučajnoj varijabli X pripada simetrična razdioba, onda su X i 57“ neko- 


relirane slučajne varijable. Dokažite! 


š Kes C9 : š z š sA 
. Nekaje T =a? (a > 0) procjenitelj za nepoznatu varijancu o“ = t normalne 


razdiobe N(pu,t). Dokažite da: 


SI 2 l 2 
a) Mt) = E(T'=4)|=—ln— dje “plu = Neri t=0 
n 
nae 
:a > 0) ne postoji procjenitelj koji 


b) min hitj= 


2 
———(, postiže se za a = 
+1 


. . mn s 
c) u die procjenitelja T = (T=as" 
zadovoljava minunaks-princip. 
.) nepris- 
Ni=1 
trani_ procjenitelj za teorijski —ishodišni moment AB, 1 da vrijedi 


A 1 S 
VLA,] = — (Bee — 82). 


. Dokažite da za procjenitelj A za parametar A Poissonove razdiobe Po(A), 


definiran formulom (39), vrijedi B[A] AJ VIA] = Ča 
n 


VI. 
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10. Nađite ML-procjenitelj za parametar p(0<p< 1) geometrijske razdiobe (v. 


ll. 


12. 


13. 


14. 


16. 


17. 
18. 


19. 


20. 


21. 


IV.3). 
Dokažite da su A = min(AX1,.. 2x, )i B = max(.X1,..., X.) ML-procjenite- 
lji za parametre a i b uniformne razdiobe U(a,b) (a < b). | 


Nađite ML-procjenitelj za parametar Pp (0 <p < 1) binomne razdiobe B(m,p) 
uz pretpostavku da je m poznato. | 


Nađite ML-procjenitelj za parametar t(t€ R) kontinuirane razdiobe vjero- 
Jatnosti čija f.g.v. glasi 


9, za z<t 
hir (e (2 —t)] za x >t 


Nađite ML- procjenitelj za vektorski parametar € = (ti,t2) kontinuirane raz- 
diobe vjerojatnosti čija f.g.v. glasi 


0, | Za Zz< ti 
Nia) = 1 | x —-t 
(2) = €xp | — , Za £>ti, 
2 to = 


gdje je & = (4,6) ER? : 4 ER, >0). 


. Nađite ML-procjenitelj za vektorski parametar $ = (ti,t2) vjerojatnosne raz- 


diobe, čija f.r.v. glasi 


gdje je O = ((t1,6) ER“ :t, > 0, to > 0). 
Izvedite formulu (46) imajući na umu da funkcija gubitka glasi 


L(d,) = (fi — 1)? + (87 — o)? 


i daje R(t) = E[L(T, t\|, pri ćemu je T= (X, 22). 

Izvedite formulu (48). 

Dokažite da je statistika a MI -procjenitelj za varijancu eksponencijalne 
razdiobe Ex(a). 

Nađite funkciju rizika za procjenite iz zad. 18. i pokažite da je za velike 
n (n —> oo) ML-procjenitelj x približno četiri puta bolji procjenitelj od 2 
Ako je T ML- procjenitelj za paramet artit > h(t),t € 0 strogo rastuća 
funkcija, tada je h(T) M L- procjenitelj za h(t). Dokažite! 


Neka su so T, nezavisni i nepristrani _procjenitelji za parametar £, kojima 
Pripadaju konačne varijance VITI) 1 VIT:). 


a) Dokažite da je T = (7+ fi (C1,02 € R,cr + c2 = 1) nepristrani 


procjenitelj za £. 


titra: 
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22. 
23. 
24. 


29. 


26. 


27. 


28. 


29. 


30. 


Procjena parametara VI. 
b) Dokažite da varijanca VITI postaje minimalna ako vrijedi 

ciVITi) = c2V[12). | 
Dokažite formule (75) 1 (76). 
Dokažite Rao-Cramerovu nejednakost za slučaj diskretnih razdioba. 
Odredite efikasnost uzoračke aritmetičke sredine X kao procjenitelja za 
parametar: | 
a) su normalne razdiobe N(p:, 0?), 
b) p binomne razdiobe B(1,p), 


l ' | 
c) a= 5! uniformne razdiobe U(0, £). 


n+1 


Odredite efikasnost statistike ja z : max(Xi,...,Xn) kao procjenitelja 


za parametar t uniformne razdiobe U (0, ). 


Nađite Rao-Cramerovu donju granicu za varijance procjenitelja za parametar 
t(t€ R) vjerojatnosne razdiobe čija f.g.v. glasi 


4) = IraG 0) 


zeR. 


Primjenom CGT-a dokažite da se za velike m binomna razdioba B(m,p) može 
aproksimirati normalnom razdiobom N(mp, mp(1 — p)). 
Primjenom CGT-a nađite vjerojatnost da zbroj od n = 12 brojeva uzetih iz 


intervala (0, 1) u skladu s uniformnom razdiobom U(0, 1) bude veći od 10. 
Neka je P= (B(l,p):0 <p < 1) klasa dopuštenih razdioba vjerojat- 
nosti i neka je apriorna razdioba parametra t = p beta-razdioba sa zadanim 
parametrima a i 8. Primjenjujući statistiku X = nX = ALT + Kal 
kvadratnu grešku kao funkciju gubitka, nađite Bayesov procjenitelj za nepoz- 
nati parametar t binomne razdiobe B(1, £). 

Neka je P = (Po(A) A > 0) klasa dopuštenih razdioba vjerojatnosti l 
neka je apriorna razdioba parametra t = A eksponencijalna razdioba Ex(a). 
Primjenjujući statistiku X = nX i kvadratnu grešku kao funkciju gubitka, 
nađite Bayesov procjenitelj za parametar A. 


VI. 1995 


Pregled najvažnijih procjenitelja 
tpost io a. ; 
Tra rana | von 
m ML-procjenitelj, nepristran, 
B(1,p) X konzistentan, najefikasniji, 
asimptotski normalan 
) A 


. ML-procjenitelj, nepristran, 
Po(A X konzistentan, najefikasniji, 


asimptotski normalan 


ML-procjenitelj, nepristran, 


Ex(a) konzistentan, najefikasniji, 
asimptotski normalan 

U(0,t) 2x nepristran, konzistentan, 
asimptotski normalan 


ML-procjenitelj, 
max(X1,...,Xn) 


ML-procjenitelj, nepristran, 
konzistentan, najefikasniji, 
normalan 


nepristran, konzistentan, 
asimptotski efikasan, 
asimptotski normalan 


postoji konačni 
četvrti centralni 
moment 


nepristran, konzistentan 
asimptotski normalan 


postoji konačni 
2r-t1 centralni 
moment 


nepristran, konzistentan 
asimptotski normalan 


VII. Intervali povjerenja 


1. Uvod u problematiku 


U VI. poglavlju razmatran je problem procjene nepoznatog parametra vjero- 


jatnosne razdiobe sa svrhom da se definira dobar procjenitelj čija vrijednost služi 


kao aproksimacija nepoznatog parametra. Kaže se još da je time izvršena a 
procjena nepoznatog parametra, za razliku od intervalne procjene o kojoj S o 
riječ u ovom poglavlju. Naime, na temelju niza podataka Tao no KeDI oc rediti 
interval (g,,g2) koji će imati svojstvo da s velikom vjerojatnošću pokriva“ nepo- 


znati parametar £. 


2 L PIE Su 
VBA PDT Va 
0) t 92 


Slika 6. Skica intervalne procjene parametra 


i se £ itaet ik jeroj šću može 
Uzme li se t € (gn, gm istait at, onda se s velikom jea o 
jamčiti da apsolutna greška pri aproksimaciji nepoznatog parametra t vrijednošću 
f nije veća od 6 = |g2» — gu|: Rubovi gi i g2 intervala (g1,g2) ovisit će, dakako, o 
izmjerenim podacima zi, ...,Zn, tako da se može pisati 


(1) dare hrlfr; fa), G= h(zi,:..,Fn), 
pri čemu su hy i h2 određene funkcije n realnih varijabli takve da vrijedi 
>n 
Niles aje poi b RR 9 (Bijes tn jER 


No, kako je već rečeno u VI.1, niz (Z1,...,Zn) može se shvatiti kao vrijednost 
slučajnog vektora (X1,..., Xa) gdjesu Ad An nezavisne slučajne varijable sa 
zajedničkom vjerojatnosnom razdiobom Pr € P (f je klasa dopuštenih razdioba 
vjerojatnosti), tako da se g, 1 g2 mogu razmatrati kao vrijednosti statistika 


(2) (ri = hi(Xi, : noi) Go = ho(A1, ća mo CR 


Statistike Gi i Go su, dakako, određene slučajne varijable kojima, ovisno o 


parametru t, pripadaju odgovarajuće razdiobe vjerojatnosti, pa se može postaviti 
zahtjev 


(3) P(Gr<t<G2)>1 t€0, 


gdjeje 1 (0 << 1) zadani realni broj. 


i 
i 
! 
| 
i 
i 
i 
i 
i 
1 
i 
i 
i 
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Ako su rubovi gi, go imtervala (gi, g2) dobiveni kao vrijednosti statistika G, i 
G2, pri čemu je zadovoljena relacija (3), onda se kaže da je (gi, g2) interval 
povjerenja pouzdanosti y za nepoznati parametar t. 


Broj y zove se još i razina povjerenja i obično se uzima y = 0,95 ili 0,99, 
pa se govori o 95% ili 99% pouzdanosti izvedene intervalne procjene, odnosno o 
95-postotnoj ili 99-postotnoj razini povjerenja. 

Ako se, na primjer, određuje interval povjerenja uz pouzdanost od 95%, onda 
se može očekivati da će se, prilikom višestrukog uzimanja slučajnog uzorka, bar u 
95 % slučajeva dobiti interval povjerenja koji će sadržavati nepoznati parametar, 
odnosno da će u najviše 5 % slučajeva nepoznati parametar ostati izvan dobivenog 
intervala povjerenja. Naravno da uz 99% pouzdanosti imamo veću sigurnost da 
će interval povjerenja "pokriti" nepoznati parametar, međutim taj će interval biti, 
što će se vidjeti kasnije, širi od odgovarajućeg intervala povjerenja pouzdanosti od 
95 %. | 


Pitanje izbora veličine pouzdanosti Y, tj. da li uzeti za y vrijednost 0,95 ili 
0,99 ili nešto treće i nije matematičko teorijsko pitanje, već je to stvar praktične 
prirode problema i procjene stručnjaka o utjecaju pojedinih faktora (pouzdanost, 
ekonomičnost, veličina greške i sl.) na konačnu odluku i njezine praktične posljedice. 

Prema tome, teorijski gledano, problem određivanja intervala povjerenja 
zadane pouzdanosti y za nepoznati parametar t koji postoji u danoj klasi 
dopuštenih vjerojatnosnih razdioba P = (P, :t € 0) sastoji se u definiranju 
statistika (2) koje ispunjavaju uvjet (3). Praktički se interval povjerenja određuje 
tako da se načini nn nezavisnih mjerenja Z1,...,Zn promatrane slučajne varijable 
X i izračunaju vrijednosti g, i go statistika Gi i G2. 

Primijetimo odmah da statistike (ty i Go nisu jednoznačno određene uvjetom 


(3). Ako, naime, postoje statistike G; i Go koje zadovoljavaju uvjet 
(4) P(Gi<t<G)=4 te60, 


onda one zadovoljavaju i uvjet (3), a očigledno je da mogu postojati statistike Gi 
i (Yo koje ne ispunjavaju uvjet (4), a da zadovoljavaju (3). 

Ako statistike Gi; i Go zadovoljavaju uvjet (4), onda se dobiva tzv. najuži 
interval povjerenja zadane pouzdanosti y. 

Ne bi se moglo reći da postoji neka univerzalna metoda za nalaženje intervala 
povjerenja, ali se munogi konkretni problemi, kako će se vidjeti u nastavku, mogu 
rješavati na sljedeći način: Pretpostavimo daje T određeni procjenitelj za nepoznati 
parametar t, pa kako je T slučajna varijabla, kojoj pripada odgovarajuća razdioba 
vjerojatnosti, ovisna, dakako, o parametru t, može se postaviti zahtjev 


(5) P(c1(t) < ji < co(t))=7, te6, 
pri čemu su t> cu(t) 1 tet) monotone funkcije za koje vrijedi da je c,(t) < 


< c2(t) (t € 0), što osigurava postojanje odgovarajućih im inverznih funkcija hi 1 
ho, tako da se (9) može zapisati u obliku 


I 


a a rr 
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Buduci da su hi(T) l ho(T), kao funkcije slučajne varijable i također određene 

slučajne varijable, uspoređivanjem (4) i (6) vidi se da je Gy = h Kea iGo=h 2(T) 

i time je načelno riješeno pitanje rubova intervala povjerenja pouzdanosti y za 

nepoznati parametar t. Problem se, prema tome, sveo na to da se odredi razdioba 

vjerojatnosti procjenitelja T ida se nađu funkcije Ci i c2 koje ispunjavaju uvjet (5). 
Taj postupak ilustrirat će se idućim primjerom. 


1. primjer 


Pretpostavlja se da je P = (NE o") :t € R!, tj. treba odrediti interval po- 
vjerenja pouzdanosti y za nepoznato očekivanje u = t normalne razdiobe, čija je 
varijanca o? poznata. 

U praksi se takva situacija pojavljuje kada se, na primjer, promatra proces 
proizvodnje određenog proizvoda (v ijka, pločice i sl.) ne nekom stroju koji je 
podešen tako da proizvod ima propisanu dimenziju X (duljinu, debljinu i sl.). Zbog 
brojnih različitih utjecaja dimenzija NJ je slučajna varijabla za koju se pretpostavlja 
da 1 ia normalnu razdiobu N(pt, o će ri čemu pu ovisi o radnoj podešenosti stroja, 
dok o? ovisi o preciznosti l tvorničkoj Pali stroja, što je obično unaprijed pozna- 
to. Na temelju niza mjerenja TZi,...,Zn dimenzije X na izrađenim proizvodima, želi 
se provjeriti je li stroj ispravno podešen, tj. da li se parametar u nalazi u granicama 
tolerancije, dakako, unaprijed zadanima. 

Teorijski dio mre lea može se rješavati ovako: Polazi se od spoznaje da je 


T=X= mos +...+Xn) procjenitelj za nepoznati parametar t = pi da 
AN (+ 20) (v. VIL.4. (52)). Treba još, u skladu sa (5), pronaći funkcije ci 1 
n 


C2. 


Budući da je (v. VI.5. (46)) 


7 me zam, grrr mi m 
(7) AZ <X<t+15) (A) 


odmah se nameće ideja da se uzme 


(8) piljst=)-<, tjesi 


va Va 


pa se vidi da su to strogo rastuće funkcije parametra t € R te se (7) može pisati u 
obliku 


vn vn 
Uspoređujući (9) i (6), najprije se vidi da se A određuje iz zahtjeva 20(A) > 1 =, 
12 čega proizlazi 


a l+y 
(10) du = 9 saanisk M 
Žv | 3 


Zatim se vidi da su tražene sjaji Gil Go, kao slučajni rubovi intervala pov- 
jerenja pouzdanosti 1, dane formulama 


(9) P(N-a << K+) =200)-1 
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— ug 
(11) lis a =Y+n 

Zanimljivo je uočiti da su Gi i Go, osim što su funkcije procjenitelja X, također 
ovisne o pouzdanosti 1 1 veličini uzorka n, dok širina intervala povjerenja 


o 
(12) Poe 
ovisi samo o Ji ni nije slučajna varijabla. 

Kao što je poznato, funkcija & i njoj inverzna funkcija $-! odnose se na stan- 
dardnu normalnu razdiobu N(0,1), tako da se proračun veličine 2, može izvesti 
primjenom tabl. III. u Dodatku. Za najčešće vrijednosti pouzdanosti y, odgo- 
varajuće vrijednosti 2, izračunane prema formuli (10), navedene su u tabl. 1. 


Tablica 1. Tablica 2. 


0,66 0,78 1,03 


0,33 0,39 0,52 
0,16 0,20 0,26 


Na temelju (12) i tabl. 1 može se uočiti ovisnost između širine intervala pov- 


jerenja, pripadne pouzdanosti i veličine uzorka, što je prikazano tablicom 2, u kojoj 
su za odabrane n 1 y navedene vrijednosti veličine ć = ——=z,, koje pokazuju širinu 
n 


intervala povjerenja za a = 1. Odgovarajući grafički prikaz dan je na sl. 7. 


1 
I 
1 
U 
l 
1 
1 
1 
1 
i 
1 
i 
I 
I 
1 
1 
1 
1 
1 


0,90 0,95 


Slika 7. Skica ovisnosti veličina n, yi 6 


Sada se može navesti i primjer za konkretno određivanje intervala povjerenja. 
Recimo da jea = 21 daje na uzorku veličine n = 25 dobivena vrijednost uzoračke 
aritmetičke sredine Z = 12, pa će tada, prema (11) i tabl. 1, interval povjerenja 
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pouzdanosti y = 0,95 imati granice 


iko O ' 2 

i rt Minna 11.22: 

ske =124196.2=12T8 

= Z ra = E d 
92 Pa/n ) 5 ) 


Zaključak je, dakle, da se nepoznato očekivanje u nalazi u intervalu 
(11,22 ; 12,78), ali taj zaključak nije apsolutno siguran, već ima pouzdanost od 
95%, što znači da primjenom opisanog postupka možemo očekivati 5 % pogrešnih 
zaključaka. Ako bi se toleriralo samo 1% pogrešnih zaključaka, tj. ako se uzme 


y = 0,99, onda je 2, = 2,58 1 za rubove intervala povjerenja dobivaju se vrijednosti 
2 ' 2 
JI = 12 — 2,98 > e 10,97, 92 = 12 + 2,98 dže 13,03. 
8) J 


Formula (12) omogućuje i da se, za unaprijed određenu dopuštenu grešku 64 pri 
aproksimaciji nepoznatog parametra t vrijednošću t iz intervala povjerenja pouz- 
danosti y, odredi potrebna veličina n slučajnog uzorka. Stavi li se, naime, #8 = 9, 
iz (12) se dobiva 


pe v 
13 no 4 [> I 
(13) (2) 


Ako se kao jedinica mjere za grešku uzme standardna devijacija s, tj. stavi li se 
ća = ka (k > 0), (13) postaje 

2 
(14) i a 
pa se vidi da je broj n potrebnih mjerenja za određivanje intervala povjerenja 
pouzdanosti y obrnuto proporcionalan s kvadratom dopuštene greške. “Tako, na 
primjer, ako se uz pouzdanost 1 = 0,95 tolerira greška od polovine standardne 
devijacije, tj. ako je k = 0,5, onda se iz tabl. 1. i formule (14) zaključuje da je 
potrebno načiniti bar n = 62 mjerenja promatrane slučajne varijable X. 

Ovisnost širine intervala povjerenja, odnosno dopuštene greške 69 1 veličine 
uzorka n zorno je prikazana na sl. 8. 


2. primjer 


U vezi sa 1. primjerom iz VI.I. može se postaviti zadatak da se odredi inter- 
val povjerenja pouzdanosti y za nepoznati parametar € uniformne razdiobe U(0,+) 
(f > 0). Pokazano je da ML-procjenitelju T, = max(X1,..., An) za nepoznati 
parametar t pripada vjerojatnosna razdioba, čija je f.r.v. izražena formulom (19) iz 
VI.1. Primjenom relacije (5) na procjenitelj T. dobiva se 

C2(t) a 
—-| =7 


P(c(t) < jah < c2(t)) ma Ea se ' 


pa Je riječ o tome da se nađu monotone funkcije c1 1 e» koje zadovoljavaju gornju 
jednadžbu. Budući da je u uniformnoj razdiobi U(0,t) svaki izmjereni podatak 
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200 


o 10 2 


Slika 8. Skica ovisnosti greške (k) i veličine uzorka (1) 


| bAs tt) BN će 1 to = imax(21,...,Zn) < t, pa je prikladno uzeti 
1 cu(t) = kt, te zahtijevati da se k (0 < k < 1) odredi tako da vrijedi 


t t 
iz čega odinah proizlazi da jek = WI mi 1. Stoga se može pisati 


PEYI-1<N<t)=1, 


odnosno 


Pas 


Pie = =). 
Vi=7) ' 


Uspoređivanjem te relacije s relacijoni (4) vidi se da su slučajni rubovi intervala 
povjerenja pouzdanosti y za parametar £ uniformne razdiobe U(0, t) dani formulama 


n 
Ako se, na primjer, uzme y =0,95in=25,ondaje /T=7 = 20,05 a 0,89, 


pa ako Je to maksimalna vrijednost u nizu mjerenja zi,..., 225, onda odgovarajući 
rubovi intervala povjerenja za parametar t jesu 


Gi=T, Go= 


1-a 


Intervali povjerenja 


Pas 


ša to m 
Nn=t, 9 = 089 1,12t2. 


U razmotrenom je primjeru širina intervala povjerenja 


s 1 
A=1|G2—G 4z=-) 


pa se vidi da je vrijednost širine intervala povjerenja 


+) 


proporcionalna vrijednosti t2 procjenitelja T» s faktorom proporcionalnosti 


d= + — |. 


1 
Mag 
Konkretniji pregled odnosa veličina n, dij može se dobiti u tabl. 3. 


Tablica 3. 


2. Intervali povjerenja za parametre 
normalne razdiobe | 


U 1. primjeru riješen je problem određivanja intervala povjerenja za parametar 


it normalne razdiobe N(u, o") uz pretpostavku da je parametar o“ poznat. Sada 
će se, međutim, postaviti zadatak da se nađu postupci za određivanje intervala 
povjerenja zadane pouzdanosti 1 za oba nepoznata parametra udio“ na temelju 
niza mjerenja z1,...,Zn slučajne varijable A — Ma i: m 

Budući da je ovdje riječ o dva parametra 111 a7, stavit će se t = (16,0%) 1 govoriti 
da je € vektorski parametar, pa se najprije mora reći što će se općenito razumije- 
vati pod intervalom povjerenja pouzdanosti y za nepoznati vektorski parametar 
tL=litnin dive 6 R* (k € N). Ako su, dakle, Gji 1 Gj2 (J = Loss KR) 


statistike koje zadovoljavaju uvjet 


(15) P(Giyr<ti<Gi,. za <t4<Gun)>I tee, 


i 
| 
1 


i NN _______.____P__ PČ EE_— 
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agjilgja lj =1,...,k) su vrijednosti odgovarajućih statistika na izmjerenom nizu 
podataka Zi,...,Zn, onda se skup 


(16) I, = (911,912) X... 


dobiven, dakle, kao Kartezijev produkt intervala (gi1,g12),---,(9k1,9k2), ZOVE St- 
multani interval povjerenja pouzdanosti y (0 < y < 1) za nepoznati vektorski 
parametar £. 

Interpretacija simultanog intervala povjerenja pouzdanosti y za nepoznati vek- 
torski parametar # slična je onoj za obični interval povjerenja. Ako je, recimo, 
1 = 0,95, onda se može očekivati da će se, prilikom višekratnog ponavljanja 
slučajnog eksperimenta koji se sastoji od uzimanja n-članog uzorka i određivanja 
odgovarajućeg skupa I; C R* definiranog u (16), bar u 95 % slučajeva dobiti takav 
I, koji će pokriti točku € € R*, odnosno da će u najviše 5% slučajeva točka %, tj. 
nepoznati vektorski parametar € = (t,,...,tx), ostati izvan skupa I. | 

Tako općenito formuliran problem vrlo je teško riješiti i stoga se postavlja lakši 
zadatak da se odrede intervali povjerenja za svaku komponentu posebno, tj. da se 
nađu statistike Gj 1 Gj2(j=1,...,k) koje zadovoljavaju uvjete 


x (gk1,9k2) CR, 


(17) P(Gji < tj EIA a te e6. 


Ako su gji 1 g;2 vrijednosti statistika Gj, 1 Gj2 na izmjerenom nizu podataka 
Z1,...,€n, onda je (gj1,gj2) interval povjerenja pouzdanosti 1; (0 < I; < 1) 
parametra tj. 


Na temelju elementarnih svojstava vjerojatnosti slijedi da je 


P(Gi1 <ti<Gi9,..., Grle < (rk2) 2 


18 a 
>I—I—P(Gi<t<Gi2)+...+1—P(Gkr < tx < Ga2)], 


pa iz (15), (17) i (18) proizlazi 
(19) P(Gu<ti<Gi2,...,Gair<tk <Ga2) >1-(-Mn)+...+(1-— 9). 


Relacija (19) pokazuje da se, na temelju pojedinačno određenih intervala pov- 
jerenja pouzdanosti y; za komponente tj (j = 1,...,k), može dobiti simultani 
interval povjerenja pouzdanosti y=1—-(1-Mh)+...+(1—9x)] za vektorski 
parametar t = (ti,...,tk). 

Posebno, ako je k = 2iY = = 0,95, te ako su (g11,912) 1 (921,922) 
intervali povjerenja komponenata ti 1 to pouzdanosti 95%, onda je pravokutnik 
Io = (g11,912) X (921, 922) simultani interval povjerenja pouzdanosti y = 1— 0,05 — 
— 0,09 = 0,90 za vektorski parametar £ = (ti,t2). 

Sada se možemo vratiti zadatku pojedinačnog određivanja intervala pov- 
jerenja za parametre normalne razdiobe ty = ni to = o“, uz pretpostavku da je 
t = (1,07) € O nepoznati vektorski parametar, pri čemu je 
O = ((n,o')ER?:n€R,o? > 0). 

Odmah se može primijetiti da se za određivanje intervala povjerenja za pa- 
rametar u neće moći, kao u 1. primjeru, neposredno iskoristiti statistika .X, jer 


9) 


P 


Dog : : : : o > KE a 
njezina razdioba vjerojatnosti N (a =) ovisi o nepoznatom parametru a“. Stoga 
n 
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se prirodno nameće ideja da se pronađe neka statistika koja neće ovisiti o o, 
U tu svrhu može se ovako zaključiti: Na termnelju svojstva uzoračke aritmetičke 
sredine X, izraženog relacijom (52) u VI.4, i formula (62) i (63) iz IV.6, proizlazi 


X —u 


da 

, . . .. . . . s . . 5) Mo 
nameće ideja da se a? zamijeni nepristranim procjeniteljem S* (v. VI.4), čime se 
dobiva statistika 


X — X — 


vno N(0,1). Tu se, međutim, još uvijek nalazi nepoznato g, pa se 


n—1 


n-1q2/' 
o? > 


—1 ' 
Iz (20) se vidi da se T može zapisati u obliku T = Zvj > gdje 


pam =] 
nae jo Modjeva=i 
[04 


formula (53). Na temelju, pak, onoga što je rečeno u točki 7. iz V.G, zaključuje se: 


9 2 o a < , 
S“ = X“(n— 1), što je uočeno već u VI4, 


Statistika T' ima Studentovu ili t-razdiobu sa n — 1 stupnjeva slobode. Piše se 


Tt(n—1). 


Time smo dobili statistiku koja ovisi samo o parametru 4, ane 1 o nepoznatom 
parametru o“, dok njezina razdioba vjerojatnosti ovisi samo o veličini uzorka n 
(n > 2). U točki 7. iz V.6. također je navedeno, a vidi se i iz sl. 9, da je Studentova 
razdioba simetrična s obziromi na ishodište, pa se može zahtijevati da se odredi 


takvo 7, > 0 da vrijedi 


Ša % 
SYN, 


-2 -r, 1 0 1 pa 


Slika 9. Skica krivulje Studentove razdiobe 
(21) P= Psi ea jo) 29, 
odnosno 


ray 3 e 9 a S na. S 
(22) P(-n < S i<n)=P(X-nZ<n<X+n5)=4 


Uspoređivanjem (4) i (22) zaključuje se da su statistike 


ze I sm 
23 Giu=A-Tn, GeozaA 
(23) 11 A 2 Ja 


| 
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slučajni moon intervala povjerenja pouzdanosti y za parametar /ć normalne raz- 
diobe N(pu, o“) u uvjetima nepoznate varijance o“. 


Prema tome, praktično određivanje odgovarajućeg intervala povjerenja (911,912) 
sastoji se u tome da se, za zadano n 15, 


' najprije primjenom tablice za Studentovu 
razdiobu (v. di pripac 
(v. tabl. V. u Dodatku), odredi pripadno Ty, a zatim se na danom nizu 


podataka Z1,...,2,, izračunaju vrijednosti 


-_I< oh 2 
24 ZO, do == 
(24) po a Fis 3 a (si z) 


nz A 15“. Rubovi intervala povjerenja pouzdanosti y za parametar yu 
glase | 


S 


| m. s 


(25) JI=T—T 


Označi li se sa CG, f.r.v. Studentove razdiobe t(n) sa n stupnjeva slobode 
j 


5) 
n—-14 TS] - 


onda je GZ! njoj inverzna funkcija, pa iz (21) proizlazi da je no=Gl ( 
Sre 2 


Tablica 4. 


Ee e) 


9 
0 


Ako se, na primjer, na uzorku veličine n = 25 dobije aritmetička sredina F = 12 
l korigirana uzoračka varijanca s — 4 i ako se zahtijeva pouzdanost 1 = 0,95 pri 
procjeni nepoznatog očekivanja 11, onda će se najprije iz priložene tabl. 4. gucitati 
odgovarajuće 1, = 2,06, a zatim, prema (25), izračunati rubovi intervala povjerenja 


+ 
Ć 


o , : 
MNi=12—2,06.——= = 11,18. qo= LU . pole 
25 112 12 + 2,06 mori = 17827 
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Usporede li se te vrijednosti s odgovarajućim vrijednostima rubova intervala 
povjerenja iz 1. primjera vidi se da je sada dobiven nešto širi interval povjerenja 
pouzdanosti 95% za nepoznato očekivanje u normalne razdiobe. lo je, posve 
razumljivo, jer su u 1. primjeru rubovi određeni uz poznatu varijancu o“ = 4, 
dok je ovdje primijenjena procjena a 4 za nepoznatu varijancu. 

Iz (23) se razabire da je | 


Gul= — Im 


širina intervala povjerenja porast y za parametar u normalne razdiobe. Iz 
(26) se vidi da A, ovisi o statistici 3,4. Bije slučajna varijabla, za razliku od 1. 
Primjera, gdje širina intervala povjerenja nije bila slučajna varijabla. 

Usporedbom tabl. 1.14. vidi se da je T, uvijek veće od odgovarajućeg z,, a to 
znači da uz istu pouzdanost y irmamo širi interval povjerenja (veću grešku aproksi- 
macije) kada se za varijancu o“ uzima procjena s“ nego kada je varijanca unaprijed 
poznata. Tablica 4. pokazuje da je, za malene n, ta razlika vrlo značajna, dok se 
S porastom veličine uzorka n ona sve više smanjuje i za n = oo više nema raz- 
like u granicama intervala povjerenja za nepoznato par ju normalne razdiobe 
izračunane na temelju (11) ili na temelju ( (23). 


(26) A = (E 


S 
Iz (26) se razabire i to da vrijednost REŽE om širine intervala povjerenja za 


Parametar uu, osim što ovisi o vrijednosti s statistike S, ovisi i o neslučajnom faktoru 


2T. 
dl = —|i, pa se može reći da je $, proporcionalno vrijednosti korigirane uzoračke 
n 


standardne devijacije s koeficijentom proporcionalnosti dy koji ovisi o pouzdanosti 
TI veličini uzorka n. Ta se ovisnost niože konkretnije spoznati pogleda li se tabl. 9. 


Tablica 5. 


Ostalo je još da se razmotri i zadatak pojedinačnog određivanja intervala pov- 
Jerenja za nepoznatu varijancu o“ normalne razdiobe. U,tu svrhu iskoristit će se 


—21 
Statistika U — će 


S* za koju je u VI.4. (formula (53)) rečeno da joj pripada 


2 


hikvadrat- iagdićha san —1 stupnjeva slobode. Statistika U, dakle, ovisi samo o 
den parametru o*, a njezina vjerojatnosna razdioba samo o veličini uzorka 

n (n > 2), pa Je stoga prikladna za navedenu svrhu. Hikvadrat-razdioba, kako je 
opisano IV.9, nije simetrična pa će se zahtijevati da se odrede pozitivni biejevi ul 
1 uo (v. sl. 10), tako da vrijedi 


| 
i 
i 
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doge Lj o U or. 


I — 1— 
(27) PU<uw)= =>, PU>u)= 2 
iz čega proizlazi da također vrijedi 


P(uu<U<u)=7, 


odnosno 


z = i 
(28) P(u<"z 12 '<u)=P(" Pe BR buhe 


ur 1 5 u2 6 7 


Slika 10. pm hikvadrat-razdiobe i skica geometrijskog 
značenja pouzdanosti + 


Uspoređivanjem (4) i (28) vidi se da su statistike 


zm 
(29) Gi ==>. due S? 


u2 u1 


slučajni rubovi intervala povjerenja pouzdanosti y za parametar o“ normalne raz- 
diobe N(pu, a“). 


Označi li se s H,, f.r.v. hikvadrat-razdiobe X? (n) sa n stupnjeva slobode 
onda se (27) može pisati kao 


) 


Il — 1 — 
H,-i(u1) = = 1 — Hn- (2) = sa 


iz čega slijedi da je 


hra= 
ui = ip jet sa 1 u? = H-! 


Konkretne vrijednosti u, i uz mogu se izračunati pomoću odgovarajuće tablice 
za hikvadrat-razdiobu (v. tabl. VI. u Dodatku). U tabl. 6. navedene su vrijednosti 
Za UI 1 u2 u ovisnosti o nekim veličinama uzorka n i uobičajenih pouzdanosti y. 
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00. i == 


Tablica 6. 


Praktično određivanje intervala povjerenja zadane pouzdanosti y za maa 

o? normalne razdiobe na temelju niza mjerenja Zi, ---,Zn sastoji se u tome da 

se najprije, primjenom odgovarajuće tablice, odrede vrijednosti ui 1 u2, zatim se 
n 


3 (zg — Z)* statistike S? na danorn nizu mjere- 
u s l i=1 .* . . . 
nja, čime je omogućeno da se konačno izračunaju i rubovi intervala povjerenja 


“ m a ', - 
izračuna vrijednost s“ = 


(30) 


im) iČI =: 29 ijednost uzoračke 
Ako je, na primjer, na uzorku veličine n = 25 dobivena vrijedi 
Bb 


Mc Kao na : 

korigirane varijance s“ = 4, onda će interval povjerenja pouzdanosti 1 = 0,95 za 
.. ). . 

nepoznatu varijancu a“ imati rubove 


24 4 
DESETI A=244, gmo= == 


' iona : .. ' m : : amčiti 
To znači da izmjereni podaci sugeriraju da s pouzdanošću od 95 % možemo jamči 


da interval (2,44; 7,74) pokriva nepoznatu varijancu promatrane slučajne varijable, 


uz pretpostavku da joj pripada normalna razdioba. 


Iz (29) se razabire da je širina intervala povjerenja za varijancu o slučajna 
varijabla 


o(l_]1 
(31) A2 = |G22 — Gal = (n— 1)5 (= z —) 


U1 Uu2 


. . . . . 2 Ši x 
pa se vidi da vrijednost 82 širine intervala povjerenja za parametar o, osim što 
ovisi o vrijednosti s? korigirane uzoračke varijance, ovisi 1 o neslučajnom faktoru 


Pogledom na tabl. 7. moguće je konkretnije uočiti ovisnost između do, n 17. 


i 
[ 
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Tablica 7. 


Iz tabl. 7. vidi se da se s malim uzorcima ne mogu postići male greške pri 
intervalnoj procjeni nepoznate varijanice o* normalne razdiobe N(p,o?). Tek s 
uzorcima koji se sastoje od stotinjak i više mjerenja dobivaju se intervali povjerenja 
čija je širina manja od vrijednosti korigirane uzoračke varijance s?. 

Zanimljivo je primjetiti da širina 6, intervala povjerenja za parametar uu ne 
ovisi o procjeni Z parametra uu, već samo o procjeni s? (zapravo s) parametra o? 
Također i širina 62 intervala povjerenja za parametar o“ ovisi o procjeni s“. To je 
donekle i razumljivo jer varijanca o“ karakterizira raspršenje, tj. slučajnost u teo- 
rijskoj razdiobi vjerojatnosti kojom je izražena statistička zakonitost pri mjerenju 
slučajne varijable X, a s? karakterizira raspršenje u izmjerenom nizu podataka 
Ti,...,Zn. Stoga je o? glavni izvor nepouzdanosti pri procjeni parametara pt i 02, 
pa je razumljivo da će o?, odnosno odgovarajuća procjena s*, bitno utjecati na 
veličinu greške procjene, tj. na širinu pripadnog intervala povjerenja. 

Uspoređivanjem tabl. 5. i 7. također se vidi da je mnogo teže postići zadanu 
tolerantnu grešku procjene, izraženu faktorom proporcionalnosti di, odnosno d2, pri 
procjeni varijance o? nego pri procjeni očekivanja u normalne razdiobe N(pu, o“). 

Tako se, na primjer, iz tabl. 5. vidi da se s uzorcima od četrdesetak mjerenja 
(n = 40) već postiže d; < 1, tj. greška pri procjeni nepoznatog parametra u nekom 
vrijednošću iz pripadnog intervala povjerenja ne premašuje uzoračku korigiranu 
standardnu devijaciju s. Da bi se postigla analogna točnost (dx < 1) pri procjeni 
varijance o“, iz tabl. 7. se vidi da treba uzeti stotinjak mjerenja (n = 100). 

Polazeći od (19), (23) i (29) sada se može odrediti i simultani interval pov- 
jerenja za nepoznati vektorski parametar £ = (pu, o?) normalne razdiobe N(p, o?). 
Vrijedi, naime | 


su S mE S n-1., n-1 
(x _n<u<sK+rn—, <. < 
vn nu ui 


i 


#) >1—2(1-9), 


što, prema (15), znači da je pravokutnik 


S s. n—1 n—1 
(32) L-(r-nd.+n i g ) Cc R? 
vn vn u ui 
simultani interval povjerenja pouzdanosti 1 = 1— 2(1—) za vektorski parametar 
9 | 
= (u,0“). | 


Posebno, ako je na uzorku veličine n = 25 dobiveno £ = 12 i s* = 4, onda 
je I» = (11,18 ; 12,82) x (2,44 ; 7,74) simultani interval povjerenja pouzdanosti 


tok: 
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y =1-2(1—0,95) = 0,90, što proizlazi iz maloprije izračunanih intervala povjerenja 
pouzdanosti y = 0,95 za parametar ut 1 o“ pojedinačno. 


3. Intervali povjerenja pri velikim uzorcima 


Dosadašnja razmatranja pokazala su da je za određivanje intervala povjerenja 
zadane pouzdanosti y za nepoznati parametar t, u smislu definicijske formule 
(4), potrebno definirati određenu statistiku T = IT, = h(Xi,...,Xn), koja je 
na određeni način povezana s nepoznatim parametrom t i kojoj pripada odgo- 
varajuća razdioba vjerojatnosti. U svim razmotrenim primjerima bilo je relativno 
lako odrediti tu razdiobu vjerojatnosti, što je ključni moment pri rješavanju prob- 
lema određivanja intervala povjerenja. Međutim, to uvijek nije tako, jer često 
postoje situacije kada tu razdiobu vjerojatnosti nije moguće jednostavno izraziti, 
što paraktički onemogućuje da se na taj način dođe do traženog intervala pov- 
jerenja. Stoga je nužno uvesti dodatne pretpostavke da bi se došlo do jednostavni- 
jeg rješenja. Jedna od takvih pretpostavki jest da se raspolaže velikim uzorkom, 
što omogućuje primjenu asimptotskih svojstava statistike T,,. 

Ako je 7), asimptotski normalan i nepristran procjenitelj nepoznatog parame- 
tra t, onda se, prema relaciji (89) iz VI.8, može uzeti da približno vrijedi 


i 


Pos 


(33) 14 di N(t, Rx(t)), 


Pas 


gdje je R,(t) = V[T,]. To omogućuje da se napiše 


[ 
1 


(34) Pt— VRAT) < f, <t+2vRidt)=7, 


gdje je z, definirano u (10) (v. tabl. 1), 
Ako je moguće riješiti po t nejednadžbe 


l—z n 
(35) ' - 
t -+ 2v n) 
tako da se dobiju nejednadžbe | 
Dee. 
(36) si 
b< (19, 


onda su statistike Gy 1 Go slučajni rubovi intervala povjerenja pouzdanosti y za 
nepoznati parametar t, jer je iz (34), (85) i (36) očigledno da vrijedi 


J 


P(Gi<t<G)=1. 


Problem se, dakle, praktički sveo na rješavanje sustava nejednadžbi (35), što 
dakako uvijek neće biti moguće. U toni slučaju i uz pretpostavku da je T,, i konzis- 
tentan procjenitelj (v. VI.8) za parametar t, što znači da se za veliko n može uzeti 


Malija Ru(tn), jednadžba (34) postaje 


i 
U 


; mama 
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Cd 


P(4 ZAVJET 21 tave) =7, 
odnosno 
(37) PB Ri) << +2 R50) =7. 


Uspoređivanjem (4) i (37) odmah se vidi da su 


(38) G=TezvRiI G=T+2vRifT,). 


slučajni rubovi intervala povjerenja pouzdanosti y za nepoznati parametar t. 


Ako je T, još i asimptolski najefikasniji procjenitelj (v. VI.7) za parametar t 
t]. vrijedi | 


lim e(t) = lim m rm = 
n-—>o09 n—>o0 nV[T,]I(t) 


gdje je 1(t) šou informacija, onda se za veliko n može približno uzeti da je 
R,(t) = VITI] = —— 38 
n(t) [1] SITE pa (38) postaje 


(39) Gelo G= bi 


nI(T,) nI(T,) 


Sirina intervala povjerenja slučajna je varijabla 


a IG2 — Gi] = dž KG. je 


3. primjer 


Problem određivanja intervala povjerenja zadane pouzdanosti 1 za nepoznati 
parametar a eksponencijalne razdiobe Ex(a) može se egzaktno riješiti (v. zad. 4) 
primjenom statistike W = naX, gdje je n veličina uzorka, a X uzoračka aritme- 
tička sredina, Na temelju poznatog rezultata iz točke 4. u V.6. zaključuje se da 
W < G(1,n). Ako se odrede vrijednosti T1,22 € R (Zi, < 22) tako da vrijedi 


PW < 1) = P(W > T2) = 


—_y._ Be . 
, što povlači da je P(zy < W < 22) = 4, 


odnosno : 
Li 
P — = 
E 7) 9 
onda se odmah razabire da su 
(40) (jače. G= 


i 

' 
i 
I 
| 
i 
| 
| 
i 
| 
1 
š 
) 
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slučajni rubovi intervala povjerenja pouzdanosti y za nepoznati parametar a ek- 
sponencijalne razdiobe Ex(a). 

Nezgoda je, međutim, u tome što za određivanje zi i z2 treba pozna- 
vati f.r.v. F,, gama-razdiobe G(1,n), odnosno njoj inverznu funkciju F7!, jer je 


rqi= F7! (=) izo= F7! (7) pa bi trebalo imati odgovarajuće tablice, 


n 9 n 
što nije uobičajeno. m | 
Ako je n dovoljno veliko, onda se mogu primijeniti formule (35), gdje će se uzeli 
da je = X, jer je poznato (v. 6. primjer u VI.3) da je X nepristran, konzistentan 
: bs 
i asimptotski normalan procjenitelj za parametar t = ao = ma jea = nu , pa 


(35) postaje 


odnosno 


l l 
l o ] 
PL TV ) 


iz čega proizlazi da su slučajni rubovi intervala povjerenja pouzdanosti y za para- 
metar a eksponencijalne razdiobe približno izraženi formulama 


BSE o pai 
(41) Gi = a 235) pe (ro —_ a +435) S 


Iz činjenice da je a > 0 proizlazi da imaju smisla samo pozitivne vrijednosti zaGj,a 
to povlači da treba biti n > a Specijalno za 1 = 0,90 treba biti n > 2,zay = 0,95 
treba n > 3, dok za y = 0,99 treba n > 6. No, znamo da je opća pretpostavka za 
valjanost formula (41) da je n dovoljno veliko, tako da to, praktički gledano, i nisu 
značajna ograničenja. 


Širina intervala povjerenja približno je izražena formulom 


11 
(42) A=|G2-—G|=22—==, 


a 


2 ) E fu : : 
iz čega se vidi da ona opada s porastom veličine uzorka n kao n7?2, isto kao 1 u 
formulama (12) i (16). 
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4. primjer 


Cinjenica da je uzoračka aritmetička sredina X nepristran, konzistentan i 


asimptotski normalan procjenitelj za nepoznato očekivanje 4 u modelu s dopuštenom 


klasom onih vjerojatnosnih razdioba koje imaju konačnu poznatu varijancu o? (v. 
VI.2), može se iskoristiti za približno određivanje intervala povjerenja zadane pouz- 
danosti y za nepoznato očekivanje u.. 

Oslanjajući se na relaciju (26) iz VI.2 i stavljajući t = mi T= X, sustav 
nejednadžbi (35) postaje | 


o o — fog 
Pa = MEET 


pa se odmal vidi da su 


a a 

(43) Gi=X—-2— G +24, 

n vn 

slučajni rubovi intervala povjerenja pouzdanosti Y za parametar pu, dok je širina 
intervala povjerenja neslučajna veličina 


| o 
44 =. 
2 vn 


Usporedbom (12) i (44) razabire se da je riječ o istim formulama, samo se mora 
imati na umu da (12) vrijedi za svaki n € N, ali za užu dopuštenu klasu razdioba, 
dok (44) vrijedi za velike n i mnogo širu klasu dopuštenih razdioba. 

Kada je riječ o primjeni činjenice da je X asimptotski normalan procjenitelj za 
očekivanje u, onda se pod dovoljno velikim n obično razumijeva n > 30, a nekada 
čak i n > 15. | 

Ako varijanca o“ nije poznata, onda se može poći od činjenice da niz slučajnih 


dosa A > : som mm mae 
varijabli 2, = va (n € N) konvergira po razdiobi (v. VI.8) slučajnoj vari- 


jabhi Z — N(0, 1), što znači da za velike n približno vrijedi 


dj 
P(-, < Seva <) o. 


odnosno 
PIX 2 ane xa 2 
p —_— ZZ L p Za. == 
"vn Z "vn Y, 


iz čega proizlazi da su slučajni rubovi intervala povjerenja pouzdanosti y za nepoz- 
nato očekivanje pi | 


(45) reseeo st Devi 2. 

vn vn 
Iz (43) 1 (45) vidi se da se rubovi intervala povjerenja za nepoznato očekivanje uu, uz 
nepoznatu varijancu a“, dobivaju iz rubova intervala povjerenja za u uz poznato o“ 
tako da se a u formulama (43) zamijeni vrijednošću korigirane uzoračke standardne 


i 


i 
ro oja 


$. 
i: 
iš 
d ka 
Mog 
=. mm 
i 
H 


1 
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devijacije s. Usporede li se, pak, formule (23) i (49) vidi se da se one formalno 
razlikuju samo u tome što umjesto 7, stoji 2,, a to upućuje na poznatu činjenicu 
da se za velike n (n > 30) Studentova razdioba t(n) aproksimira standardnom 


normalnom razdiobom N(0, 1). 


5. primjer 


Svojstvo nepristranosti, konzistentnosti i asimptotske normalnosti uzoračke 
korigirane varijance SZ, kao procjenitelja za nepoznatu varijancu o“ u modelu S 
dopuštenom klasom onih vjerojatnosnih razdioba koje imaju konačni četvrti cen- 


tralni moment ua, može se iskoristiti za približno određivanje intervala povjerenja 


| L 
zadane pouzdanosti y za nepoznati parametar a". Budući da postoji veza € = zi -5 
(v. (15) u IV.2) između pu4 i koeficijenta spljoštenosti €, moguće je zadatak for- 
mulirati i tako da se traži interval povjerenja za a“ uz pretpostavku da je poznat 
koeficijent spljoštenosti €. | 

Stavljajući t = 02 i T, = S2 može se pisati pa = (€ + 3)t*, a formula (30) iz 
VI.2. tada ima oblik | 


l 2n 
R(t) = V[S%] + — (+ ram :) je 


Sustav jednadžbi (35) u ovom slučaju postaje 


pa 


od 2 
n n—1 


=i 
= 
kesa dobiva | 
"Van u n — ) 
LaS T= = 
oj PJ: “med i 
| SI 
i, | ika 2 i 
dok se množenjem druge nejednadžbe sa Ć +2, 2 E Ea ) dobiva 
. 
> 82 (14zale+ : 
ni i n n-1 ' 


£ 5 


> S? 


Ako je 1— £#, > 0, onda se množenjem prve nejednadžbe sa 


o) 


što znači da su 
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oi zi 
£ 2 E 2 

za ) 3; = 8 1 — zasi 

+5 : m +5) 


slučajni rubovi intervala povjerenja pouzdanosti y za parametar o“. Odgovarajuća 
širina intervala povjerenja slučajna je varijabla 


(47) Gi = s? C +ž, 


Žal E 


(48) A= Ist. 
| Ma 
ĆI E n— :) 
2 ' es Ligi 
= 0, onda se iz (47) vidi daje Gi, = zo i Go = 00, 
n — 
pa se dobiva beskonačno širok interval povjerenja. Za 1—z, 2 + vi < 0 sustav 
n n- 
; I 
nejednadžbi (46) ima rješenje oblika o“ > S? C + Za/ :$| 5 , što znači 
n n- 


=] 
' / 2 ' ' : 
daje Gi = S? 1 + Zs - + = ) 1 Go = 00, pa se i tada dobiva beskonačno 


širok interval povjerenja. 
Promotri li se klasa vjerojatnosnih razdioba sa € = 0, a takva je, na primjer, 


Akoje 1—z. -+ 


6 


klasa normalnih razdioba, tada uz uvjet 1— z. 


(47) postaje 
1 


—_1 —_ 
12 2 1. q2 2 
(49) Gi=3 15) , (r2 = 5 0 75) , 


a (48) postaje 


2 
Ki > 0, odnosno n > ea +1, 
1 


22, /2(m— 1) 
n— 1-22; 
Uvjet n > da. + 1 praktički znači da za y = 0,90 treba uzeti n > 6, za y = 0,99 


treba n > 8, dok za 1 = 0,99 treba imati uzorak veličine n > 14 da bi se mogle 
primijeniti formule (49) 1 (50). 


(50) A = Be 


Primjedba 


Problem određivanja intervala povjerenja za parametar o“ normalne razdiobe 

N(u,o*) riješen je u VII.2. formulama (29) 1 (31). Uzme li se u obzir činjenica da se 
Bh : . ; 2 _ NK: : 

za velike n (n > 30) hikvadrat-razdioba X“(n) može aproksimirati normalnom raz- 


nlo  N(n—1,2(n—1)) 


diobom N(n,2n), tada se može približno uzeti da U = : 
g 


i jednadžbe (27) mogu se zapisati u obliku 
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Q uy—n+l\_ 1-4 e 5) 5 
vV2(n—1) 27 vV2(m—1) 2 


odnosno 


de 
u=v2an-1) e ( !) bjsela=una=f=2/2m=1) 


2 


l 
u = G= Tao (57) +n-i=n-142 2(n— 1) 


Uvrste li se te vrijednosti za u 1 uo u (29), dobivaju se upravo formule (49), što 
pokazuje da stavljanjem € = 0 u (47) dobivamo iste formule za slučajne rubove inter- 
vala povjerenja za nepoznatu varijancu o? u općenitijem modelu (klasa dopuštenih 
razdioba sa zadanim koeficijentom spljoštenosti € = 0), kao i u specijalnom mode- 
lu, gdje je klasa dopuštenih razdioba P = (No) pEeERU= 7 < oo). No, 
pritom valja stalno imati na umu da to vrijedi za velike uzorke (n > 100). Određeni 
uvid u pripadne širine intervala povjerenja za o? u ovisnosti o veličini uzorka n 1 
pouzdanosti y može se dobiti pomoću tabl. 6. u VII.2. 


4. Primjena Čebiševljeve nejednakosti 


Značajno ograničenje u praktičnoj primjenjivosti opisanih metoda za daj 
vanje intervala povjerenja sastoji se u pretpostavci da se polazi od statistike sak 
koja je u određenoj vezi s nepoznatim parametrom i, što Je bitno, ima jednostavnu 
razdiobu vjerojatnosti, ili je asimptotski normalna, pa se izvođenje formula za rubo- 
ve intervala povjerenja temelji na dobro proučenoj normalnoj razdiobi. Ako nijedna 
od tih pretpostavki nije ispunjena, onda se često problem može riješiti prumjenom 
Čebiševljeve nejednakosti (v. IV.4). 

Neka je, dakle, T procjenitelj za parametar £ u modelu s klasom m. 
P=(1P:t e 0) dopuštenih vjerojatnosnih razdioba i neka postoje S 
ET] E ii VITI = ož, što omogućuje da se na slučajnu varijablu T' primijeni 


Cebiševljeva nejednakost, čime se dobiva 


2 1 
(51) P(n—Amn<T<n+aAm) > 1-52» 


gdje je A > 0 proizvoljan realan broj. 
' sa. l 
Stavljajući 1 — Po (0<y< 1), odnosno 


(52) \=A, = 


promotrimo sustav nejednadžbi 


(93) M— Ar < I ' MHAra > T. 
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Ako ga je moguće riješiti po t tako da se dobiju rješenja 


goKeR 
t < (Go 
onda (51) postaje ekvivalentno sa 
(54) P(Gi<t<G2)>1, 


a to, prema (3), znači da su Gi i G2 slučajni rubovi intervala povjerenja pouzdanosti 
y za nepoznati parametar £. | 

Odmah primijetimo da se nismo pozvali na relaciju (4), koja omogućuje dobi- 
vanje najužih intervala povjerenja, tako da će se ovim postupkom redovito dobivati 
intervali povjerenja koji su mnogo širi od najužih intervala povjerenja, koji su se 
dobivali već opisanim postupcima. 

Ako bi se, na primjer, interval povjerenja za očekivanje uu, uz poznatu varijancu 
o“ (v. 4. primjer), određivao primjenom Čebiševljeve nejednakosti na procjenitelj 


a. = == m l 
T= X, bilo bi u, = EDIN] = u, o? = VLY] = —o* i (53) postaje 
| n 


o — — o 
== A peere < € => < NU A ora 
o 


g 


PP 


>X => u>X—-\ 


"jn. 


tako da su : 
(55) Gjerek Gera, 
vn 
slučajni rubovi intervala povjerenja pouzdanosti 1 za parametar u. 
Formule (55) vrlo su slične formulama (43). Razlika je samo u tome što umje- 
sto z, stoji A). Vrijednosti 2,, za određene vrijednosti pouzdanosti 1, navedene su 


u tabl. 1, a u tabl. 8. navest će se vrijednosti A, izračunane prema formuli (52). 


Tablica 8. 


Širina intervala povjerenja, izračunana na temelju (55), jest 


od 
Paja 


pa se usporedbom (44) i (56), te tabl. 1.18, vidi da se uz primjenu Čebiševljeve 
nejednakosti dobivaju nekoliko puta širi intervali povjerenja za nepoznato očekiva- 
nje u, iste pouzdanosti y, nego po metodi opisanoj u 4. primjeru. 

lako formule (55) i (56) vrijede za svaki n € N, za malene n praktički su besko- 
risne. Tako, na primjer, zan = 4 proizlazi da je širina intervala povjerenja 6 = M49, 


(56) 6 = 2A 


tup: 


i 
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što za 1 = 0,95 iznosi 6 = 4,60. To znači da se, bar sa 95 % pouzdanosti, a možda 
i više, može jamčiti da apsolutna greška pri aproksimaciji nepoznatog očekivanja u 
uzoračkom aritmetičkom sredinom Z neće premašiti, očigledno preveliku, vrijednost 
od gotovo pet standardnih devijacija. g i ae 
Može se, prema tome, ustanoviti da interval povjerenja za nepoznato očekivanje 
4, uz poznatu varijancu o“, ima smisla određivati primjenom Cebiševljeve nejed- 


knj i hi ž TE e 
nakosti samo kada veličina uzorka nije premalena, a ni prevelika (5B < n < 20). 


U primjedbi uz 5. primjer navedeno je da se formule za intervalnu procjenu 
nepoznate varijance a2, uz poznati koeficijent spljoštenosti €, mogu primjenjivati 
za n > 100, jer tek tada dolazi do izražaja asimptotska normalnost procjenitelja 


S?. Stoga se nameće ideja da se iskoristi Čebiševljeva nejednakost za određivanje 


se može smatrati da se uzorak veličine n uzima iz beskonačne populacije. Radi 
jednostavnosti uzimamo da anketno pitanje glasi: Da h ćete glasovati za kandi- 
data XK? Pretpostavlja se da u cijeloj populaciji glasača postoji određeni omjer 
| p(0<p< 1) onih koji će glasovati za kandidata XK. Broj p interpretira se kao 
| vjerojatnost događaja A, da slučajno izabrani glasač glasuje za kandidata X. To 
se može egzaktno opisati pomoću slučajne varijable X — B(1,p). X je, dakle, 
| slučajna varijabla Bernoullijeve razdiobe (v. TV.3), koja poprima vrijednost 0 (ne 
nastupa događaj A) s vjerojatnošću 1 — pi vrijednost 1 (nastupa događaj A) s 
vjerojatnošću p. U teorijskom obliku zadatak glasi da se napravi intervalna proc- 
jena nepoznatog parametra p Bernoullijeve razdiobe na temelju n-članoga slučajnog 


ma oristi o kise Za | uzorka (Xi,...,Xn), pri čemu je Ki B(1,p),i=1,...,n. 

| intervala povjerenja za varijancu o“ kada je n < 100. Stavimo, dakle, t = o“ | .. . i a = 

1] on j (53) daj Ranije je pokazano da je uzoračka aritmetička sredina X = —(X1+...+ Xu), 

T=S2 pai —a7i —_ — —— |o",što uvršteno u daje ' i rok BH : 

| T=5,paje = 109, n—1 ' koja u ovorn slučaju ima značenje relativne frekvencije događaja A u n-članome 

slučajnom uzorku, nepristran, konzistentan i asimptotski normalan procjenitelj za 

, parametar p, pa će stoga X poslužiti kao osnova za određivanje intervala povjerenja 

o“ |1—A4 zadane pouzdanosti y za parametar p. 

| (57) | Za određivanje najužeg intervala povjerenja primjenom formula (5) i (6) tre- 

| , 


balo bi upotrijebiti formulu (4) iz VI.1, kojom je definirana razdioba vjerojatnosti 


statistike X. Tu se vidi da statistika n.X — B(n,p), pa se može postaviti zahtjev 
da se odrede cy 1 c2 (cy < c2) tako da vrijedi 


a? 1+ 


Nejednadžbe (57) formalno su identične nejednadžbama (46), samo što umjesto ž, | 


i ' m . e y 
stoji A,, pa će se i sve izvedene formule razlikovati samo u tome da se umjesto | (58) P(nX < ci) =P(nA > e2) = Sa 
z, u formulama (47)-(50) stavi A,, što će bitno utjecati na širinu odgovarajućih | . 
intervala povjerenja, t). na točnost procjena. iz čega proizlazi da je 


S mi je so age . PE . 2 . 
Posebno je važno uočiti da se ovdje pojavljuje uvćt n > 24 +1, umjesto (59) e. pm m 
uvjeta n > de + 1 u 5. primjeru, što praktički znači da za y = 0,90 treba biti | Jr = | | | 
n > 26, za 7 = 0,95 treba n > 43, dok za y = 0,99 treba imati uzorak veličine Iz činjenice da nX — B(n, p) proizlazi da je 


n > 101, da bi se mogle primijeniti izvedene formule. 2 
| P sem pa 3 (1 — jet = 
= j j P 9 


e e e * (60) 
I atnost događaja 2 2 i | NE e 
5. Intervali povjerenja za vjeroj S J p(x > a2) "> (pa _ pi = = 
| ika 
Mnoge praktične situacije zahtijevaju da se procijeni vjerojatnost p DE pe) j=e, 


određenog događaja A, koji može i ne mora nastupiti u promatranome slučajnom 


a tinaa ne čava: k što, bar načelno, omogućuje da se prva jednadžba riješi po ci, a druga po cx, čime 
eksperimentu ili slučajnoj pojavi. Na temelju n nezavisnih ponavljanja toga eks- 


Z | KP? ' : se dobiva 
perimenta treba procijeniti vrijednost nepoznate vjerojatnosti p uoćenog događaja 
. . . . . . . 2. A . . .. 2. i C se n 
A i odrediti pripadni interval povjerenja zadane pouzdanosti 1. Drugim riječima, irZEG(Pn,y) 
treba procijeniti nepoznati parametar p i moguću grešku uz unaprijed zadani rizik co=c(p,n,"), 
da se donese pogrešan zaključak. | | | | 
. . . i . . . J . . s : ps : ž < a 5 u a a od 
Tipičan primjer procjene vjerojatnosti događaja jest prognoziranje rezultata tJ. Cp 1 C2 izraženi su u ovisnosti op, n1y. Sada još ostaje da se riješi po p sustav 
izbora za predsjednika države, ili za sastav parlamenta. Na temelju anketiranja | nejednadžbi 
određenog broja glasača, koji se odabiru po načelu slučajnosti 12 skupa potencijal- | m aa 
nih glasača, o tome za koga će glasovati, stručnjaci daju odgovarajuće prognoze o (61) 


rezultatima budućih izbora, pri čemu navode i pouzdanost te prognoze. | Co(p,n,Y) > nA, 
Matematički model za opisani problem izgleda ovako: Pretpostavlja se da je nu. čime se dobiva 


) svi Ul asača 1 KI oc ja n anketiranih glasača, tako da e PRE 
broj svih mogućih glasača mnogo nI od broja n £ ' dies poete 
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i time su, načelno, određeni slučajni rubovi intervala povjerenja pouzdanosti y za 
nepoznatu vjerojatnost p, tj. 


(62) Gi=Gi(n,X,9), Go=Ga(n,X,7). 


Numerički postupci za rješavanje jednadžbi (60) i sustava nejednadžbi (61) 
vrlo su složeni, tako da se zorni uvid u rješenje navedenog problema najbolje dobiva 
grafičkim prikazom rezultata, što je načinjeno na sl. 11.1 12. 

Ako se, na primjer, uzme y = 0,95 i na uzorku veličine n = 50 dobije vrijed- 
nost relativne frekvencije promatranog događaja Z = 0,4, onda se na sl. 11. vidi 
da vertikalni pravac, kroz točku apscise 0,4, siječe ucrtane krivulje za n = 50 u 
točkama koje imaju ordinate gr A 0,25 1 go £ 0,55, 1 to su upravo rubovi traženog 
intervala povjerenja. Konkretno, ako se anketiranjem 50 glasača želi prognozirati 
rezultat izbora i ako se ustanovi da je 20 glasača najavilo glasovati za kandidata K 


50 
na općim izborima dobio između 25% i 55% glasova. 

Ako se nekome čini da je to preširok interval povjerenja, onda će, dakako, 
morati povećati veličinu uzorka n. No, da bi se moglo egzaktnije zaključivati o vezi 
između veličine uzorka n 1 širine intervala povjerenja, trebalo bi naći formulu za 
širinu intervala povjerenja 6, kako je već ranije činjeno. 

Budući da upravo provedeno razmatranje nije omogućilo dobivanje eksplicitnih 
formula za slučajne rubove Gi 1 (GG2 intervala povjerenja u ovisnosti o n, problem 
će se riješiti za velike n metodom opisanom u VII.3. Polazi se od činjenice da je 


uzoračka relativna frekvencija X asimptotski norinalan procjenitelj za nepoznatu 


20 ' s ' 
(a = — =0,4 |, onda se, s pouzdanošću od 95%, može jamčiti da bi kandidat K 


vjerojatnost pi da je E[X] = p, VLX] = —p(1 —p), pa ako se u (35) uvrsti t = p, 
n 


| 2 


1,0 


0,9 


0,8 


0,7 


Slika 11. Intervali povjerenja za vjerojatnost p uz y = 0,95 


! 
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Slika 12. Intervali povjerenja za vjerojatnost p uz y = 0,99 


a 1 | 
n=X1R(t) = zpa — p), dobiva se 


P— ž4 


(63) 
pP+ zu 


Sustav nejednadžbi (63) ekvivalentan je nejednadžbi 


va ? l ? 

(4 =p) se Pl =p)<0 
odnosno nejednadžbi 
(64) (n + z2)p" — (2nX + 22)p + nX“ < 0. 


| Lijeva strana u (64) je kvadratni polinom u varijabli p, koji će poprimati ne- 
S&ativne vrijednosti između svojih nultočaka 


Hupoae 
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l 


E 1 2 | — kv l 2 
NEG =— ===, TT T=) 
1+ —z) 
X Duzal-XU-X)+— 27 
p G ok Ino sE “Va m ) + 4n? di 
2=u2 = 


1 ća, 2 
zi do 


Rješenje sustava nejednadžbi (63) po parametru p, koje je identično rješenju 
kvadratne nejednadžbe (64), prema tome glasi 


Gi <p< (9. 


To, pak, prema (36), znači da su Gi Go, izraženi formulama (65), slučajni rubovi 
intervala povjerenja pouzdanosti y za nepoznatu vjerojatnost p uočenog događaja 
A, pri čemu se, dakako, pretpostavlja da je n dovoljno veliko, tj. takvo da se binom- 
na razdioba B(n,p) smije aproksimirati normalnom razdiobom N(np, np(l—p)). 

Ako bismo na već razmotreni konkretni primjer (y = 0,95, n = 50) primijenili 
formule (65), dobili bismo konkretne rubove intervala povjerenja 


0,4 +0,01 < 1,962 — 1,96./0,02- 0,4 - 0,6 + 0,0001 - 1,962 


LIE002. 1862 a 0,276 = 27,6%, 


J1 


g2 0,538 = 53,8 %, 


čemu odgovara širina intervala povjerenja 6 = 0,262. 

Usporede li se ti rezultati s onima dobivenim na temelju sl. 11, vidimo da razlike 
i nisu jako velike, zbog toga što je n = 50 već dovoljno veliko za aproksimaciju 
binomne razdiobe odgovarajućom normalnom razdiobom. 


Za n > 100 mogu se u (65) zanemariti članovi a 2: L 2,2 Ze , pa se dobivaju 


jednostavnije formule 


(66) Gi= X 


na temelju kojih se dobiva i jednostavna formula 


(67) A = tv Ka 


za širinu A intervala povjerenja. Za svaku vrijednost T (0 < Z < 1) statistike a 


j 


doč oja ' 1. ik diko g ' ' 
vrijedi daje /z(l—Z) < u stoga je vrijednost širine intervala povjerenja 


(68) < —=: 
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Iz (68) se zaključuje da za postizanje unaprijed zadane širine 6 (ili manje) 
intervala povjerenja pouzdanosti y, pri procjeni nepoznate vjerojatnosti p, treba 
uzeti uzorak čija veličina n zadovoljava nejednakost 


(69) n > 


Tako, na primjer, želi li se prognozirati rezultat glasovanja uz pouzdanost 
Yy = 0,95 tako da greška (širina intervala povjerenja) ne bude veća od 10%, trebat 


će anketirati bar n = TEEN 1,96 = 385 glasača. Za prognozu iste pouzdanosti, ali 


1 
uz tolerantnu grešku od 5%, treba anketirati bar n = D052 1,96 = 1537 glasača. 


, 


6. Bayesovski intervali povjerenja 


U VI.9. opisana je Bayesova metoda procjene nepoznatog parametra t, koja se 
primjenjuje kada istraživač, osim izinjerenih podataka z,,...,Zn O slučajnoj vari- 
jabli X, čija razdioba vjerojatnosti pripada klasi P = (P, :t € 0) dopuštenih 
vjerojatnosnih razdioba, raspolaže i određenom apriornom vjerojatnosnom raz- 
diobom II, koja opisuje ponašanje parametra t kao slučajne varijable T'. Neka 
jeY = h(Xi,...,Xn) određena statistika, pa se može promatrati slučajni vektor 
(T,Y), čija je razdioba vjerojatnosti određena razdiobom [7 i uvjetnim razdiobama 
vjerojatnosti statistike Y za svako t € O. No, tada je određena i uvjetna razdioba 
vjerojatnosti slučajne varijable T' uz uvjet da slučajna varijabla X poprimi vrijed- 
nost y. Označimo sa Ty, slučajnu varijablu kojoj pripada ta vjerojatnosna razdioba, 
pa se može postaviti zadatak da se odrede brojevi gi 1 g2 (g1 < 92), tako da vrijedi 


(70) Ping )j= 


gdje je 1 (0 < y < 1) unaprijed zadan broj. Kaže se da je (g1,92) Bayesovski 
interval povjerenja pouzdanosti y za nepoznati parametar t. Govori se još da je 
interval (gy, g2) određen na temelju aposteriorne vjerojatnosne razdiobe nepoznatog 
parametra t, nastale pod utjecajem opaženih (izmjerenih) podataka zi,..., Zn. 

Primijetimo da je očekivanje slučajne varijable T4, tj. uvjetno očekivanje 
slučajne varijable T uz uvjet da je statistika Y = poprimila vrijednost 
V=h(Z,...,Zn), točkasta procjena za nepoznati parametar t u smislu Bayesove 
metode (v. VI.9). 

Da bismo konkretno ilustrirali određivanje Bayesovskog intervala povjerenja 
vratimo se primjeru iz VII.5, gdje je nepoznati parametar t = p označivao omjer 
(postotak) glasača koji bi na izborima glasovali za kandidata K. Kao apriorna raz- 
dioba nepoznatog parametra p može se uzeti, recimo, uniformna razdioba U(0, 1), 
što praktički znači da subjektivna informacija o ishodu glasovanja za kandidata K 
ne omogućuje favoriziranje nekog omjera (postotka) iz intervala (0,1). Nakon anke- 
tiranja n potencijalnih glasača dobiven je niz 21,...,Zn (nulai jedinica) ina temelju 
svega treba naći pripadni Bayesovski interval povjerenja zadane pouzdanosti 7. 
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,. .. je *1. , . ik pa Ea l X EX ) koj 
Kao što smo već i ranije činili, uzet ćemo statistiku A = = Peheua n), KOJa 
ovdje ima značenje relativne frekvencije promatranog događaja (slučajno izabrani 
glasač daje svoj glas kandidatu K) i za koju znamo da je dobar procjenitelj za 
parametar p. Također znamo da slučajna varijabla Y = nX ima binomnu razdio- 


bu B(n,p) (0O<p<!). 


Sličnim razmatranjem kao u 12. primjeru iz VI.9. zaključujemo da slučajnom 
vektoru (T',Y) pripada dvodimenzionalna vjerojatnosna razdioba opisana funkci- 
jom 

Kk) = (OP =k/T=0, 
gdje je fi f.g.v. uniformne razdiobe U(0,1)1 


PO =k/T=0 = (p)ea- 09 k=0 nom, 


tako da se konačno dobiva 
n 
k 


0 , Inače. 


Pi(r=1r za datel kO 
(TI) FK) = GI 


To omogućuje da se dobije 


1 
l 
i ne? ker o N- at = k=0,1,...,n, 
(72) P() W= (1) [sa t) dt =a ik 
0 
što proizlazi iz činjenice da je 


n\ : n+1)! od 

(73) + D(JĆO 0 = gogi >= 
. Tla) a—1 o HP 

7 NONgl vo 


tj. riječ je o f.g.v. beta-razdiobe s parametrima a = k+1li8=n-k+1 (v. 
IV.5), čiji integral, dakako, iznosi 1. prem . 
Iz (71) i (72) lako se dobiva uvjetna razdioba vjerojatnosti slučajne varijable 
T uz uvjet da je statistika Y poprimila vrijednost k. Pripadna f.g.v. glasi 
n 
k 


0 , Inače. 


(Ek) _ 0+ D( Jao“ zaDete|! 


(74) Pelt) = POV =k) o 


Odmah se vidi da je formulom (74) defimrana beta-razdioba s parametrima a 
= k+1li8=n-k+1ida će stoga rubovi g1 1 g2, pripadnoga Bayesovskog intervala 
povjerenja pouzdanosti y za nepoznati parametar t = p, biti određeni formulama 


Ji 1 


| a 
(75) | m0 dt = | meto dt= = 
0 


92 
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Izračunavanje integrala u (75) i rješavanje odgovarajućih jednadžbi po g, i go može 
biti vrlo mukotrpan posao. Stoga se, umjesto određivanja najužeg intervala pov- 
jerenja, može primijeniti Cebiševljeva nejednakost za dobivanje približnog rješenja. 
Poznato je (v. (58) u IV.5), naime, da postoje jednostavne formule za očekivanje i 
varijancu beta-razdiobe, na temelju kojih proizlazi 


k+1 5 _(k+1/(n—Ek+1) 


= EK = P= = 
= EMl= pz! 7 Vin (n + 2)*(n +3) 


Napiše li se Cebiševljeva nejednakost za slučajnu varijablu 7, i usporedi s 
relacijom (70), te imajući na umu značenje oznake A,,, definirane u (52), dobivaju se 
približni rubovi Bayesovskog intervala povjeranja pouzdanosti izraženi formulama 


(76) JI =y — Ay0y, 92 = My +AyOy. 


Tako, na primjer, ustanovi li se na uzorku od n = 50 glasača da bi njih & = 20 
glasovalo za kandidata K, onda se s pouzdanošću od 95% može jamčiti da bi 


' Bo Va ' Ba | 21:31 
kandidat K na općim izborima dobio između gi = 55 — 4,6 - u = 0,40 — 


— 0,31 = 0,09 = 9% 1 g2 £ 0,40 + 0,31 = 0,71 = 71 % glasova. 

Dobiven je, naravno, vrlo širok interval povjerenja, što je bilo i za očekivati 
imajući na umu sve ono što je rečeno u VII.4. glede primjene Cebiševljeve nejed- 
nakosti. : 

Za velike ni k a — dobivena beta-razdioba može se aproksimirati normal- 


noin razdiobom N ( L 02) Što OmM1O itije da sE rubovi od ovarajuće Ba esovsko 
/ y) yi l g p J : e & J : '& y ; & 
intervala povjerenja Izraze formulama 


(77) JI = My — 209, 92 = My + 240. 


U već spomenutome konkretnom primjeru dobili bismo gi 2 0,40 — 1,96 - 0,067 = 
= 0,27 = 27% go = 0,53 = 53%, šta je već mnogo uži interval povjerenja. On je 
čak uži i od intervala povjerenja dobivenog u VII.5. bez pretpostavke o apriornoj 
razdiobi vjerojatnosti nepoznatog parametra. 


Zadaci 


1. Načinjeno je n nezavisnih mjerenja slučajne varijable X, za koju se pret- 
postavlja da ima normalnu razdiobu poznate varijance o“ = 4. Treba naći 
interval povjerenja pouzdanosti 1 za nepoznato očekivanje pt, ako je vrijednost 
uzoračke sredine z = 01: 


ab) u=10  7=09, b) n=50,  1=0,9, 
c) n=100, y1=0,, d) n = 10, y = 0,99, 
e) n=950, 7 =0,99, I) n=100. 1720,99. 


2. Kolika treba biti veličina uzorka n da bi se odredio interval povjerenja pouz- 
danosti y = 0,99, čija je širina: - 


186 


. Neka su (A1,..- 


. Nekaje n> 11 (M,.. 


Intervali povjerenja VII. 


a) 30, b)2a, c)o, d) 0,50, €) 0,1a, f) 0,010. 


Pretpostavlja se da je slučajni uzorak uzet iz normalne razdiobe poznate 
varijance o“. 
Nađite interval povjerenja pouzdanosti 1 = 0,99 za parametar 4 normalne 
razdiobe N(pu, o), kada je o? poznato i kada se raspolaže samo jednim mje- 
renjem zi, (n = 1). | 
Izvedite formule za slučajne rubove Gi, i G2 intervala povjerenja pouzdanosti 
y za parametar a eksponencijalne razdiobe Ex(a). 

n 
Uputa: Primijenite činjenicu da aX; = Ex(1) i da a NX=G(,n). 

i=1 
Nađite formulu za očekivanje E[A2] širine intervala povjerenja pri procjem 

NE : alne razdiobe 
nepoznate varijance o“ normalne re X» 
n—1 


ma dod tana 12 2 
Uputa: Iskoristite činjenicu da s X(n—1) 


Nađite približnu formulu za očekivanje E[Ay] širine intervala Povjerenje: pri 
procjeni nepoznatog očekivanja kt normalne razdiobe N(/t, o) u uvjetima 
nepoznate varijance i uporedite dobiveni rezultat sa širinom intervala pov- 
jerenja u uvjetima poznate varijance. 

g mazo M) nezavisni slučajni uzorci za nezavisne 
slučajne varijable A = N(f1,07) LY N(p2, 02). Izvedite formule za 
slučajne rubove Gy i G2 intervala povjerenja za veličinu do E M1 — M2, UZ 
pretpostavku da: | 

a) o? i ož su nepoznate veličine, 

b) o? = g = o" je nepoznato. | 


Uputa: U a) iskoristite činjenicu la statistika 


: X3Y-d 


= — N(0,1), 
a? o2 
(E+2 


a u b) činjenicu da statistika 


s t(m+n—2), 


gdje je 
2 _ (m - 1)S2 + (n — 1)S4 


) 


m+n—2 : 


a5. oja su odgovarajuće korigirane uzoračke varijance. 


. Nađite simultani interval povjerenja pouzdanosti y = 0,90 za nepoznati vek- 


torski parametar € = (1, o") nomnalne razdiobe, ako su na uzorku veličine 
n = 30 dobivene vrijednosti = 5 1s* = 5,76. 

An) slučajni uzorak za slučajnu varijablu 

X N(1 o"), gdje su ci o* nepoznati parametri. Neka slučajna varijabla 


i 
i 
I 
i 
i 
| 
| 
li 
I 
1 
i 
1 
i 
| 
i 


VII. 


10. 


l1. 


12. 


13. 


14. 


15. 


16. 


IT 
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XKn+1 označuje n plus prvo nezavisno mjerenje slučajne varijable X. Nađite 


tzv. interval proricanja zadane pouzdanosti y za vrijednost 2,41 slučajne 
varijable X,+1. 


Uputa: Dokažite najprije da 


K—Kn+r / on 
= t(n —1). 
, S n+1 “i ) 


Uz pretpostavku da slučajna varijabla X (tlačna čvrstoća betona) iz 5. prim- 
jera u 1.4. ima N(pu, o?) nađite intervale povjerenja za u i o* pouzdanosti: 


a) y = 0,90, Čhy=0,09 


Predvidite, uz pouzdanost y = 0,90, vrijednost slučajne varijable X (godišnja 
količina oborina) iz zad. 10. u I. pogl. za iduću godinu, primjenjujući rezultat 
iz zad. 9. 


Nađite intervale povjerenja za očekivanje ut i varijancu * pouzdanosti 1 = 
= 0,95, uzimajući kao vrijednost slučajnog uzorka podatke iz: 

a) zad. 11. u [. pogl., b) zad. 12. u I. pogl., <) zad. 13. u 1. pogl. 

Na temelju niza podataka iz 1. primjera u [.1. nađite interval povjerenja 
pouzdanosti y = 0,90 za vjerojatnost p da učenik završi razred: 

a) s odličnim uspjehom iz matematike, 

b) s negativnom ocjenom iz matematike, 

c) s pozitivnom ocjenom iz matematike. 

Na temelju niza podataka iz 3. primjera u I.2. nađite interval povjerenja 
pouzdanosti y = 0,99 za: 

a) očekivani dnevni broj kvarova, 

b) varijancu dnevnog broja kvarova, 

c) vjerojatnost da dnevni broj kvarova bude veći od 10. 


Na temelju niza podataka iz 4. primjera u I.3. nađite interval povjerenja pouz- 


danosti y = 0,95 za vjerojatnost (postotak) slova A u tekstovima hrvatskog 
jezika. 


Odredite interval povjerenja pouzdanosti y = 0,95 za očekivanje ui varijancu 
o? na temelju niza podataka iz: 


a) zad. 2. u I. pogl., b) zad. 3. u I. pogl., cc) zad. 5. u I. pogl. 

Odredite Bayesovski interval povjerenja pouzdanosti y za nepoznati parame- 
tar 12: 

a) 13. primjera u VI.9, 

b) zad. 29. u VI. pogl., 

c) zad. 30. u VI. pogl. 
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Pregled važnijih intervala povjerenja 


Para- m 
Donji rub 
metar 


Pretpostav- 
ljena klasa 
razdioba 


Gornji rub Primjedba 


max(Ti,...,Tn) 


Vr=7 


najuži interval 


max(TZi, ste e) 


N(u, o“) 


najuži interval 
a? poznato 


najuži interval 


u = Ki (22), 
u = Grili (+2), 


najuži interval 


postoji 
konačna 
poznata 
varijanca o" 


postoji 
konačna 
varijanca 


postoji 
konačni 
poznati 
koeficijent 
spljošte- 
nosti € 


PI 

ki —_-——— —— ———— Bili 
Kea 
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VIII. Testiranje parametarskih hipoteza 


1. Uvod u problematiku 


Mnoge praktične situacije u vezi sa slučajnim pojavama zahtijevaju da se 
donesu odluke tipa DA ili NE. Tako, na primjer, pri praćenju procesa proizvodnje 
nekog proizvoda treba, na temelju rezultata mjerenja zi, ...,Zn relevantne veličine 
X, donijeti odluku o tome da li proces proizvodnje osigurava ili ne osigurava zahtije- 
vanu kvalitetu. Pretpostavlja se, dakako, da veličina X, koja karakterizira kvalitetu 
pojedinog proizvoda (količina određenog sastojka, na primjer), ima slučajni karak- 
ter. Obično se smatra da je zahtijevana kvaliteta postignuta ako AX ima unaprijed 
zadana svojstva (da se, na primjer, kreće u danim granicama, ili da ima zadanu 
srednju vrijednost i standardnu devijaciju i sl.). 

Ako se, na primjer, smatra da proces proizvodnje osigurava zahtijevanu 
kvalitetu kada ne daje više od 10% neispravnih proizvoda, onda se izjava: *Pro- 
ces proizvodnje osigurava zahtijevanu kvalitetu", može iskazati i kao statistička 
hipoteza: "Slučajna varijabla X ima svojstvo da je P(X < zg) > 0,907, gdje je zo 
određena "kritična vrijednost" slučajne varijable X koja ne smije biti premašena 
na proizvodu zadovoljavajuće kvalitete. Izjava: "Proces proizvodnje osigurava 
zahtijevanu kvalitetu", u nekoj drugoj prilici, može biti izražena nekom drugom 
statističkom hipotezom, recimo ELX] = po i VLX] = og ili, na primjer, statističkom 
hipotezom X < N(/to, 09), gdje su tg i og unaprijed zadane veličine. 

Teorijski gledano, riječ je o tome da se, na temelju n-članog niza mjerenja 
slučajne varijable X, odnosno na temelju vrijednosti (Z1,...,Zn) slučajnog uzorka 
(KX1,...,Xn), donese odluka o prihvaćanju (DA) ili odbacivanju (NE) određene / 
pretpostavke o svojstvima slučajne varijable X. Takva pretpostavka zove se 
statistička hipoteza, a postupak donošenja odluke o prihvaćanju ili odbacivanju “ 
statističke hipoteze zove se testiranje. 

Putovi kojima se dolazi do konkretne statističke hipoteze prilikom istraživanja 
prirodnih i društvenih slučajnih fenomena mogu biti vrlo različiti. Najčešće su 
to prethodna kvalitativna i kvantitativna promatranja dotične pojave. Iskustvo i a 
intuicija također mogu navesti istraživača da postavi određenu statističku hipotezu 
o promatranoj pojavi. Znanstvena znatiželja može povući istraživača da pokuša 
verificirati i nasumce postavljene hipoteze. 


Općenito se problem testiranja statističke hipoteze H sastoji u tome da se, 
na temelju izmjerenih vrijednosti z1,...,Zn relevantne veličine X, donese od- 
luka o prihvaćanju ili odbacivanju hipoteze II. Budući da se uređena n-torka 
(Z1,..., Zn) može apstraktno shvatiti kao točka n-dimenzionalnog prostora R", 
riječ je o tome da se skup R" podijeli na dva disjunktna dijela Ci CC = R"\C, pa 
ako točka (21,...,Zn) padne u C, onda će se hipoteza H odbaciti, a ako padne u 
C' hipoteza II će se prihvatiti. Skup € zove se kritično područje hipoteze H. 


muk. 


meka e rnb 
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Prema tome, proces donošenja odluke u pogledu prihvaćanja dane hipoteze 
H definiran je onda ako je odabrana veličina uzorka n (broj mjerenja) 1 ako je 
definirano kritično područje €. Tako definirani postupak zove se statistički test 
s fiksiranom veličinom uzorka. Postoje i tzv. sekvencijalni testovi u kojima nije 
fiksirana veličina uzorka, već se nakon svakog mjerenja može donijeti odluka DA 
(prihvaća se hipoteza H), NE (odbacuje se hipoteza H) i DALJE (izvodi se jedno 
dodatno mjerenje ili više njih). | 

U statističkim testovima ključnu ulogu ima kritično područje €. Njega treba 
tako odrediti da sadrži one točke (Z1,...,Zn) € R" u kojima dolazi do značajnog 
(signifikantnog) odstupanja od pretpostavljene hipoteze H. Ako rezultati mjerenja 
Zi,...,Zn Upućuju na značajne razlike (recimo, izmjerene količine promatranog sas- 
tojka su prevelike) s obzirom na pretpostavljenu hipotezu H (količina ne premašuje 
kritičnu vrijednost 29), onda će se hipoteza II odbaciti. Stanovita, ne prevelika, 
odstupanja od pretpostavljene hipoteze H u nizu mjerenja Z1,..., Zn će se, naravno, 
tolerirati, jer je osnovna pretpostavka da mjerenja potječu od slučajne varijable X. 

Zadatak je, stoga, teorije testiranja statističkih hipoteza da razvije određene 
metode kojima će se moći razlučiti signifikantna odstupanja od tolerantnih odstupa- 
nja, te da definira pokazatelje rizika za donošenje pogrešne odluke glede hipoteze H. 

Da bi se jasnije uočili tipični problemi pri testiranju statističke hipoteze, naj- 
prije će se razmotriti jedan jednostavan primjer. 


1. primjer 


Neka je X relevantna veličina (recimo težina određenog sastojka) za kvalitetu 
proizvoda, pri čemu je proces proizvodnje takav da se X _ može smatrati određenom 
slučajnom varijablom. Proces proizvodnje osigurava zahtijevanu kvalitetu ako je 
E[X] = u < 50, tj. ako srednja vrijednost težine sastojka u ukupnoj masi proizvoda 
ne premašuje 50 težinskih jedinica. Na temelju niza od n = 9 mjerenja 21,...,T9 
treba testirati hipotezu Io : u < 50, tj. donijeti odluku o tome je li zahtijevana 
kvaliteta postignuta ili nije. | 

Odinah se vidi da je zapravo riječ o dvije hipoteze, tj. Ho: <501N,:mu> 
> 50, pri čemu se I, zove alternativna hipoteza za Hg, koja se pak zove nul-hipoteza. 
To znači da prihvatiti Ha istodobno znači odbaciti Hy, odnosno odbaciti Hg znači 
prihvatiti Hi. 

Budući da se rezultati mjerenja (Z,,...,2£9) mogu interpretirati kao točke ap- 
straktnog prostora R*, kritično područje (/ za hipotezu Ha bit će određeni pod- 
skup od R*. Postoji, dakako, beskonačno mnogo mogućnosti za izbor kritičnog 
područja € C R*, pa se odmah postavlja zadatak da se izbor kritičnog područja, 
na određeni način vrednuje sa stajališta korektnosti procesa odlučivanja. U pro- 


matranom primjeru čini se razumnim kritično područje C' definirati tako da ga 


ANA ca Jao mae 9 nea : : da žice na 
sačinjavaju one točke iz R' u kojima se dobiva prevelika vrijednost aritmetičke 
i ) 


sredine z = gli +...+ 29). Stoga stavimo 


C=dl(z,...,29) € R* :Z > 50). 


Io, praktički, znači da će se hipoteza Mg odbacivati kada se, u devet mjerenja, 
dobije aritinetička sredina veća od 90. Pritom nas je očigledno vodila spoznaja 
da je aritinetička sredina F dobra procjena za nepoznati parametar ji, pa ako je 


1 
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T > 90, onda se može očekivati da je i nepoznati parametar u > 50, a to znači da 
proces proizvodnje ne osigurava zahtijevanu kvalitetu. | 

Slaba je strana takvog zaključivanja u tome što z redovito nije jednako nepo- 
znatom parametru hk, pa se može dobiti, recimo, F = 91, zbog čega se odbacuje 
hipoteza Hy, a da je stvarna vrijednost parametra, recimo, u = 49, što znači da pro- 
ces proizvodnje osigurava zahtijevanu kvalitetu, odnosno da je hipoteza Hy stvarno 
istinita. Stoga se odmah nameće i pitanje kako da se egzktno mjeri rizik odbacivanja 
istinite hipoteze. | 

Da bi se odgovorilo na postavljeno pitanje nužno je preciznije definirati 
matematički model za rješavanje postavljenog zadatka. Može se, recimo, uzeti 
da je riječ o parametarskom modelu s klasoin P = (N(1,36) : u € R) dopuštenih 
vjerojatnosnih razdioba. Rezultati mjerenja (Z1,...,Z9) Mogu se interpretirati kao 
vrijednost slučajnog uzorka (/X,,. < A9), gdje su X1,..., Xg nezavisne slučajne 
varijable sa zajedničkom norinalnom razdiobom nepoznatog očekivanja u i poz- 
nate varijance o? = 36. Nadalje se ZF može shvatiti kao vrijednost statistike 


A gli +...+ X9), za koju se zna da je slučajna varijabla normalne razdiobe 


lo 
N (m 59 ) = N(1,4) (v. (52) u VI.4). To omogućuje da se promatra vjerojatnost 


odbacivanja hipoteze lo u ovisnosti o parametru t = g, tj. vjerojatnost da slučajna 
varijabla X poprimi vrijednost veću od 50. Pišemo 


PUMA) €C)=P(Y>50)=1-P(X<50)=1 dn) E 


gdje je $ fr.v. za standardnu normalnu razdiobu N(0,1). Odmah se vidi da je 
dobivena određena realna funkcija t > K(t), t € R, koja se zove funkcija snage 
testa (power function) i čija vrijednost 


(1) j (r= ((=P) 


2 


pokazuje vjerojatnost da se hipoteza Ho odbaci kada je stvarna vrijednost nepo- 
znatog parametra u jednaka realnom broju t. 


Iz formule (1) i slike 13. vidi se, na primjer, da je K(50) = 0,5, što znači da, u 


46 48 50 92 54 


Slika 13. Graf funkcije snage (1) 


nm i MR Po mn Pr 


192 Testiranje parametarskih hipoteza VIIL1 


situaciji kada je stvarna vrijednost parametra t = 50, postoji čak 50% rizika da se 
odbaci istinita hipoteza. 

Mnogima će se činiti da je to preveliki rizik donošenja pogrešne odluke i da 
treba nešto mijenjati u postupku testiranja, pogotovo zato što je, recimo, za t = 48, 
tj. kada je hipoteza Ho "debelo" istinita, vjerojatnost odbacivanja hipoteze Hy 
jednaka K(48) = P(—1) & 0,16 = 16%. To, praktički, znači da će pri stvarnom 
stanju u kojem proces proizvodnje osigurava 1 više od tražene kvalitete, opisani 
statistički test davati oko 16 % pogrešnih odluka. Rizik donošenja pogrešne odluke 
past će na manje od 5%, što se obično smatra tolerantnim rizikom, tek onda ako 
je t < 46,6, tj. ako je stvarno očekivanje manje od 46,6. 

S druge strane, za t = 51, tj. kada je hipoteza Hy stvarno neistinita, K(51) = 


= (0,5) a 0,69 = 69%, što znači da neistinitu hipotezu odbacujemo sa 69% 
vjerojatnosti, a prihvaćamo je sa 31% vjerojatnosti, što se može smatrati vrlo 
nepovoljnim. 


Sada se može naslutiti kako bi trebala izgledati idealna funkcija snage testa u 
ovom priunjeru. Očigledno je, naime, da bi za € < 50 trebalo biti K(t) = 0, a za 
t > 50 trebalo bi biti X(4) = |, 1]. vjerojatnost odbacivanja hipoteze Ig kada je 
ona istinita trebala bi biti nula, a kada je stvarno neistinita ta vjerojatnost trebala 
bi biti jedan. Kakva god bila vrijednost nepoznatog parametra ju, primjenom testa 
s idealnom funkcijom snage rizik donošenja pogrešne odluke bit će nula. 


40 48 90 52 54 


Slika 14. Giraf idealne funkcije snage 


Ako je, dakle, izabrani matematički model dovoljno vjeran stvarnosti, onda 
nam teorija statističkog zaključivanja jamči da ćeino, pomoću testa s idealnom 
funkcijom snage, uvijek donositi korektne odluke. Nevolja je, međutim, u tome što 
se s konačnim slučajnim uzorkom (konačniun brojein mjerenja) ne može konstruirati 
statistički test kojemu bi pripadala idealna funkcija snage. No, idealna fuukcija 
snage pokazuje nam čelnu treba težiti pri definiranju dobrih testova. 

Pokažimo najprije, na već razmotrenome konkretnom primjeru, da se s istom 
veličinom uzorka n = 9 ne može dobiti bitno bolji test. Možemo, recimo, zahtije- 
vati da se kritično područje €“ definira tako da rizik odbacivanja hipoteze IIg ne 
premaši 5% ni za koju vrijednost parametra t < 50. To će se postići tako da se 
hipoteza Ho odbacuje kada je vrijednost aritmetičke sredine TZ nešto veća od 50. 
Koliko ta vrijednost, označimo je sa c, treba iznositi, odredit će se iz uvjeta 


oj | b— 
(2) mMax4 P(Y > e)) = max b 3 = 0,05: 


t<50 t<50 
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l—c 


Budući da jet > b 3 


;tER, strogo rastuća funkcija, bit će 


(3) 


Bi iz (2) i (3) odmah proizlazi da je c m 93,3. Definiramo li kritično područje €“ 
a0 
C=((m...,2g9) € R* :£ > 53,3), 


onda testu pripada funkcija snage 


(4) K'(t) = e E =) , TER, 


Slika 15. Graf funkcije snage (4) 


| Tu se zorno vidi da, kada proces proizvodnje osigurava zahtijevanu kvalitetu 
opisani postupak testiranja može, najviše sa 5% rizika, rezultirati pogrešnom 
odlukom. Međutim, loša je strana ovog testa što, na primjer, za t = 51, ti 
kada hipoteza nije istinita, odbacujemo tu hipotezu tek s vjerojatnošću K'(51) Z 
= $(—1,15) s 0,12 = 12%, tako da je rizik donošenja pogrešne odluke oko 88 %. 
. oo se, dapače, da je za 50 < 1 < 93,8 rizik donošenja pogrešne odluke 
Bus Ki aa (o uspjelo se postići da rizik 

nj mn la je hipoteza Io stvarno istinita (t < 50) ne 

premašuje 5 %, ali je ostao vrlo širok interval vrijednosti nepoznatog parametra gdje 
hipoteza Ho nije istinita, a gdje se IQ odbacuje s premalom vjerojatnošću, odnosno 
pogrešna odluka donosi se s prevelikom vjerojatnošću. To je posljedica činjenice da 
se oblik krivulje u grafu funnkcije snage nije promijenio, nego je krivulja na slici 
15. translacija krivulje sa slike 13. | | 

. Da bi se dobila funkcija snage testa koja će biti sličnija idealnoj funkciji snage 
može se postupiti tako da se veličina uzorka n i konstanta e odrede zahtjevima da 
iunkcija snage u točki to = 90 poprimi vrijednost 0,05, a u točki ty =51 vrijednost 
0,95. Pretpostavlja se, naravno, da je odgovarajuće kritično područje €“ opet 
određeno pomoću vrijednosti statistike X, tako da se može pisati 


C"=((2,..,m)ER":F> c), 
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iz čega proizlazi da pripadna funkcija snage testa '“ ima oblik 


5) OKO) =PQOG, X) EC") =P(X>0d=1-P(X<e), teR 


= 36 RANA NN 
Statistika X — N CG 2) pa se (5) može pisati kao 
n 


(6) Kuo=1-a( Sva) =0( Eva) le R. 


Prvi zahtjev na funkciju snage testa glasi 


; (5L—e 
hi 50) = a( m va) = 0,09, 


a drugi zahtjev glasi 


| F 
BI —c 
Ko Glje "( m va) = (99 
Rješavanjem tog sustava jednadžbi po nepoznanicama c i n dobiva se 
2490.5; 1:22 .392, 


tako da je odgovarajuća funkcija snage testa 


(7) 


Njezin graf skiciran je na sl. 16. 


0,5 


0 


46 48 . 50 52 934 
Slika 16. Graf funkcije snage (7) 


BI 


Usporede li se slike 14. i 16. vidi se da je zaista dobivena funkcija snage koja 
je vrlo slična idealnoj funkciji snage. Za to je, međutim, bio potreban velik broj 
mjerenja (n = 392). | 

Promatanjem slike 16. razabire se da konstruirani test, s veličinom uzorka n = 
= 392 i kritičnim područjem C“ = ((zi,...,2,) € RV : € > 50,5), omogućuje 
donošenje odluke s manje od 5% rizika za grešku u odlučivanju, za svaki t < 50 


| 
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i svaki t > bl. Jedino za BO < t < 51, tj. kada se proces proizvodnje odvija tako 
da relevantna veličina X ima normalnu razdiobu s očekivanjem između 950 i 51, u 
konstruiranom će se testu odluke donositi uz rizik greške veći od 5%. 

Prema tonie, i uz vrlo veliko n ostaje određeni skup vrijednosti (interval [50,51]) 
nepoznatog parametra za koji konstruirani test loše funkcionira. Treba, međutim, 
primijetiti da za sve ostale dopuštene vrijednosti nepoznatog parametra dani test 
dobro funkcionira. 


2. Parametarski test 


Kao i u problemu procjene parametra, i ovdje će se pretpostaviti da nepoznati 
parametar £ (može biti i vektorski) pripada zadanom nepraznom skupu 6 dopušte- 
nih vrijednosti i da nepoznata vjerojatnosna razdioba slučajne varijable X pripada 
zadanoj klasi P = [P,:t € 0) dopuštenih razdioba vjerojatnosti. 

U 1. primjeru hipoteza Ho odnosila se na parametar t = u normalne razdiobe 
N(u4, 36), tako da smo imali skup R kao skup dopuštenih vrijednosti nepoznatog 
parametra, i P = 1N(uu,36) : u € R) kao klasu dopuštenih razdioba vjerojatnosti. 
Hipoteza Hy opisana je izjavom da nepoznati parametar u poprima vrijednost koja 
nije veća od 50, tj. vrijednost iz podskupa Og = (—oo,50] skupa O = R. Prema 
tome, hipoteza Ho može se matematički iskazati izrazom t € 0%. 

Općenito se u parametarskom testu hipoteza Hy, tzv. nul-hipoteza, izražava 
tako da se istakne određeni neprazni podskup 04 skupa dopuštenih vrijednosti O 
1 zapiše 
(8) Ho: te oy, Oy C 0, 


čine se ističe pretpostavka (hipoteza) da promatranoj slučajnoj varijabli X pripada 
vjerojatnosna razdioba P, € P za koju jet € Oy. Hipoteza 


Hi:t€0;,, 0, = 0\0., 


zove se alternativna hipoteza za hipotezu Hy. 
Ako je 04 jednočlani skup, tj. Og = (to), onda se govori o jednostavnoj 
hipotezi i piše se 
Hyde ta. th € O. 
Ako 04 sadrži više od jednog elementa, onda se govori o složenoj hipotezi. 


U 1. primjeru hipoteza Hg : u < 50 može se zapisati i kao Hy : u € (—o9, 950], 
pa se vidi da je Hy složena hipoteza. 


Označi li se sa € (C C R") kritično područje hipoteze Hy, funkcija snage 
testa općnito se definira forinuloimn 


(9) Kij= PIX SVECI, +60. 


K(t) ima, dakle, značenje vjerojatnosti da niz (Z1,...,Zn) mjerenja slučajne 
varijable X upadne u kritično područje (/', odnosno da se odbaci hipoteza Hy, 
kada je stvarna vrijednost nepoznatog parametra jednaka broju t. 


mmm 
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Osim funkcije snage testa, za opisivanje svojstava parametarskog testa upotre- 
bljava se i tzv. operativna karakteristika testa koja se definira formulom 


(10) KG)=1-KG)=PU(X,,..., Kn) EC), te06, 


gljej C=R"\C,a P((Xi,..., Xn) € C) označuje vjerojatnost da niz 
(Z1,...,£n) mjerenja slučajne varijable XY ne upadne u kritično područje C, kada 
je stvarna vrijednost nepoznatog parametra jednaka broju t. Vidi se da K(t) ima 
značenje vjerojatnosti da se prihvati hipoteza ITo kada je t stvarna vrijednost nepoz- 
natog parametra. 

Graf operativne karakeristike (operating characteristic) zove se OC-krivulja 
testa. 

Idealna funkcija snage parametarskog testa izražena je formulom 


, [0 zat€0, 
(1la) Rot) = ( l, zat € 0\04, 


a idealna operativna karakteristika formulom 


=> 4 zat€0, 
(11b) Ko(t) = 0, zat € 0\09. 


Ako-funkcija snage parametarskog testa zadovoljava uvjet dajea (0 <a < |I) 
njen maksimum na skupu Oy, tj. vrijedi 


KxA(ty= 
(12) maxK(t) Q, 


onda se kaže da test ima razinu značajnosti (nivo stgnifikantnosti) a. Uvjet 
(12) ekvivalentan je uvjetu 


(13) mnk(t)=1-a, 


t€0, 


.pa se može reći da test ima razinu značajnosti a ako vjerojatnost odbacivanja 
'( hipoteze IIy, kada je stvarno istinita, ni u kojem slučaju nije veća od a, odnosno 
da je vjerojatnost prihvaćanja hipoteze Ily, kada je stvarno istinita, bar 1 — a. 


U 1. primjeru imali smo a = 0,5 za kritično područje C (v. sl. 13), dok je za 
kritično područje C“ bilo a = 0,05 (v. sl. 15), kao i za kritično područje C“ (v. sl. 
16). 

Budući da broj a, na određeni način, utječe na veličinu pripadnoga kritičnog 
područja (/ , broj a zove se još 1 veličina kritičnog područja. 

Ako je riječ o jednostavnoj hipotezi Hy :t = tg, očigledno je 


(14) max K(t)= K(to) za, 
(€0) 

odnosno 

(15) min A(t)= A(b)=1-a, 


tEOy4 
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pa se može reći da a označuje vjerojatnost da se odbaci, odnosno 1 — a je vjero- 
jatnost da se prihvati istinita jednostavna hipoteza Hy. 


2. primjer 


Treba konstruirati matematički model za donošenje odluke o hipotezi da se 
u ljudskoj populaciji rađa jednak broj djevojčica i dječaka. U tu svrhu defini- 
rat će se diskretna slučajna varijabla X sa skupom vrijednosti (0,1), pri čemu 
X = 0 označuje rođenje djevojčice, a X = | rođenje dječaka. Pretpostavlja se, 
nadalje, da postoji određena vjerojatnost p (0 < p < 1) da se rodi dječak, pa 
dakle i vjerojatnost 1 — p da se rodi djevojčica. Mateinatički iskazano, to znači da 
X >B(1,p). 

Slučajna pojava spola djeteta pri lođe u matematički je opisana kao slučajna 
varijabla Bernoullijeve razdiobe B(1,p) nepoznatog parametra t = p, što znači da se 
usvaja parametarski model s klasom P = (B(1,p): p € (0,1)) dopuštenih razdioba 
vjerojatnosti i skupom O = (0,1) dopuštenih vrijednosti nepoznatog parametra. 
Hipoteza Hy da se rađa podjednak broj dječaka i djevojčica izrazit će se jednadžbom 
p=0,5. Zadatak se, dakle, sastoji u tome da se, na temelju registriranja spola n 
novorođenčadi, utvrdi postupak za prisaeinje odnosno odbacivanje jednostavne 
hipoteze Hy :p = 0,5. 

Zbog slučajnosti promatrane pojave jasno je da će svaki postupak donošenja 
odluke biti povezan s određenim rizikom za donošenje pogrešne odluke, pa se za- 
datak može precizirati tako da se unaprijed zahtijeva da rizik odbacivanja hipoteze 
Ho, kada je stvarno istinita, iznosi a = 0,05. Može se još reći da se zahtijeva da 
veličina kritičnog područja C odgovarajućeg testa iznosi a = 0,05. 

Zadatak se, dakle, sveo na to da se, za dane n i a, odredi kritično područje 
. pri testiranju jednostavne hipoteze Hy : p = 0,5, prema alternativnoj hipotezi 

:p £05. Intuicija nas vodi ideji da bi se za rješavanje danog zadatka mogli 
ao nek ini dobrim procjeniteljem nepoznatog parametra p Bernoullijeve raz- 
diobe B(1,p). U 1. primjeru iz VI.1. vidjeli smo da je aritmetička sredina X pro- 
cjenitelj za p s mnogo dobrih svojstava (nepristranost, konzistentnost, asimptotska 
dai dika i sl.), pa se može očekivati da, ako je hipoteza Hy jetinita. vrijednost 


Tod (e +...+2,), t). relativna frekvencij a pojave dječaka među n novorođenčadi 


neće ratio odstupati od 0,5. 
hipotezu Hy definirati tako da ga sačinjavaju one točke (Z1,..., 
se dobiva Z "previše" udaljeno od 0,5. Stavimo zato 


Stoga se čini razumnim kritično područje C za 
£n) € R" za koje 


(16) Galin jen +05] > ek 


i pokušajmo odrediti c > 0 tako da kritično područje C/ ima veličinu a = 0,05. 
Kada bismo poznavali c, onda bi, prema (10), operativna karakteristika odgo- 
varajućeg testa izgledala 


(17) Ke) = P((X,...,Xn) € C) = P((X-0,5|< e), t€ (0,1). 


Za svako n € N procjenitelju X pripada diskretna razdioba vjerojatnosti opisana 


formulom (4) u VI.1, a za velike n može ise približno uzeti da X < N(t,—(1—t)), jer 
n | 
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je X asimptotski normalan procjenitelj nepoznatog parametra t = p. To omogućuje 
da se (17) zapiše u obliku 


(18) K(t)=P(05-c<X<05+c)a 


pipl mae Vati ok n t € (0,1). 
7 en) o 2) S 


Budući daje Hg :t1=0,5 jednostavna hipoteza, u skladu sa (15), zaključuje se da 
mora vrijediti 


(19) K(to) = K(0,5) = 20(20/n) - 1=1-a, 


iz čega se dobiva 


20 o (1-5) 
(20) 2v/n 24 
Posebno, za a = 0,051 n = 100, proizlazi c a 0,1, što znači da, promatrajući spol 
stotinu loveradsncadi EEZ da se u ljudskoj populaciji rada podjednaki broj 
djevojčica i i dječaka odbacujemo onda ako se dobije |Z — 0,5| > 0,1, tj. ako se nađe 
više od 60 dječaka (djevojčica), pri čemu se, dakako, s vjerojatnošću a = 0,05 može 
odbaciti 1 istinita hipoteza. 

Zan =100ic=0,1 formula m postaje 


i ra 0,6 — z 04—t | 
(21) mo=(55 0) sE 0), te (0,1) 


0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 
Slika 17. Graf funkcije (21) i (22) 


Iz pripadne OCG-krivulje, Krikećane na slici 17, vidi se da konstruirani test 
osigurava prihvaćanje hipoteze Hy s velikom vjerojatnošću 1 — a = 0,95 kada je 
stvarno istinita. Međutim, vidi se i to da se hipoteza Ho, prihvaća s Kila velikom 
vjerojatnošću i za neke vrijednosti parametra t = p kada stvarno nije istinita. Tako 
se, na primjer, zat =0,/4 prihvaća s vjerojatnošću 0,5, aisto takoizat = 0,6. Tek 
za t < 0,38 14 > 0,7 vjerojatnost prili \vaćanja neistinite hipoteze Ho postaje vrlo 
bliska nuli. 

Želimo li konstruirati test koji će ali operativnu karakteristiku sličniju ide- 
alnoj, moramo uzeti veći uzorak. Za n = 625, na primjer, dobiva se, prema (20), 
c & 0,04 1 pripadna operativna karakteristika glasi 


1 


o 
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u. [ 0841 046—t , | 
(22) Ko=([555 2) (55 5) te (0,1). 


Ona ima svojstvo da je K2(0,4) = K2(0,6) = 0, a njen graf je također prikazan 
na slici 17. Taj test, osim što osigurava da se s velikom vjerojatnošću 1 — a = 0,95 
prihvaća hipoteza Hy kada je stvarno istinita, osigurava još 1 to da se hipoteza Hy 
prihvaća s vrlo malom vjerojatnošću, praktički jednakom nuli, za svaku vrijednost 
parametra t izvan uskog intervala [0,5 — 6: 0,5 + 6] (6 a 0,04), tj. kada Hy stvarno 
nije istinita. 


Oba razmotrena primjera (1.1 2. primjer) upućuju na pojavu dvaju tipova 
pogrešaka pri testiranju parametarskih statističkih hipoteza. Odbacivanje nul- 
-hipcteze Hy : t € Oy, kada je stvarno istinita, zove se pogreška prve vrste, dok se 
prihvaćanje nul-hipoteze Ho, kada je stvarno neistinita, zove pogreška druge vrste. 

Funkcija snage, odnosno operativna karakteristika testa omogućuje da se uoči 
vjerojatnost pogreške prve i druge vrste. Već je rečeno da se s konačnom veličinom 
uzorka n ne može dobiti idealna funkcija snage testa, pa se za konačno fiksirano 
n obično postavlja ovakav zadatak: Konstruirati takav test, tj. odrediti pripadno 
kritično područje C tako da razina značajnosti testa, što je ujedno i najveća moguća 
pogreška prve vrste, iznosi zadani broj a (0 < a < 1)i da istodobno najveća moguća 
vrijednost pogreške druge vrste bude minimalna. 

Ako bi se uspio konstruirati takav test, onda bi se time dobio najbolji mogući 
test za dano a i n. Međutim, za mnoge probleme testiranja statističkih hipoteza 
takav test ne postoji. Stoga je razumljivo da se najprije razinotri najjednostavniji 
slučaj problema testiranja parametarske statističke hipoteze u kojem se pretpo- 
stavlja da je skup O dopuštenih vrijednosti nepoznatog parametra t dvočlani skup 
O = (to,ti). To znači da je nul-hipoteza jednostavna hipoteza Hy : t = to, dok je 
alternativna hipoteza također jednostavna hipoteza Hi, :t = t,. Imajući na umu 
(9) 1 (14), uvjeti za najbolji test, odnosno za odgovarajuće kritično područje Cy, u 
opisanom jednostavnom slučaju glase 


(23) Po((Al, a E) = Co) = 


(24) Pi((AXi,...Kn) EC) > PAXi,-.. An) € C), NCCR", 


gdje Po = P,, označuje vjerojatnost pri istinitosti hipoteze Ho, Py = P,, označuje 
vjerojatnost pri istinitosti hipoteze H,, dok su Cy i C kritična područje za hipotezu 
Ho veličine a. 

Iz (23) 1 (24) razabire se da se problem nalaženja najboljeg testa sastoji u tome 
da se odredi ono kritično područje Ch, veličine a, za koje je vjerojatnost "upadanja? 
niza podataka (z1,...,£n) U Co, kada je stvarna vjerojatnosna razdioba Pi, veća ili 
jednaka od vjerojatnosti "upadanja? toga niza u bilo koji drugi podskup C C R", 
pri čemu vrijedi Po((AX1,..., Mn) EC) =a. 
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3. Neyman-Pearsonova lema 


Rekli smo već da definirati test, uz zadanu veličinu uzorka n € N, znači defini- 
rati pripadno kritično područje C kao određeni podskup od R". Odabere li se 
kritično područje Cg C_R" nul-hipoteze Ilg tako da vrijedi (23) i (24), onda se 
govori o najboljem kritičnom području veličine a za testiranje jednostavne hipoteze 
Ho:t= to, prema alternativnoj jednostavnoj hipotezi Hi :t= ti. 

Da bi se bolje shvatio smisao Neyman-Pearsonove leme, kojom se rješava prob- 
lem nalaženja najboljega kritičnog područja pri testiranju jednostavne hipoteze Hy, 
prema alternativnoj jednostavnoj hipotezi H;, najprije će se razmotriti jedan prim- 


JET. 


3. primjer 


Zamislimo da imamo dva novčića, od kojih je jedan pravilan tj. vjerojatnost 
pojavljivanja grba iznosi po = 0,5, a drugi je nepravilan i kod njega je vjerojatnost 
pojavljivanja grba pi = 0,4. Pretpostavlja se da se pravilnost novčića ne može 
prepoznati po njegovim vanjskim osobinama, pa će se odluka o njegovoj pravil- 
nosti donijeti na temelju bacanja novčića, recimo, 10 puta i registriranja broja 
grbova X. Očigledno je X slučajna varijabla binomne razdiobe B(10,p), gdje je 
p nepoznati parametar, za koji se zna da može poprimiti vrijednosti pg = 0,5 i 
Pi = 0,4. Zadatak se, stoga, može formulirati kao testiranje jednostavne hipoteze 
Ho: p = 0,5, prema alternativnoj jednostavnoj hipotezi Hi: p=0,4. 

U tabl. | navedene su vjerojatnosti da diskretna slučajna varijabla X poprimi 
odgovarajuće vrijednosti iz skupa A = (0,1,...,10) mogućih vrijednosti, i to naj- 
prije uz pretpostavku da je p = 0,5, a zatim uz pretpostavku da je p=04. 


Tablica 1. 


0,117 0,044 0,010 0,001 


0,006 0,040 0,121 0,215 0,251 0,201 0,111 0,042 0,011 0,002  0,0001 


Uzmimo n = |, tj. na temelju jednog mjerenja slučajne varijable X pokušajmo 
naći najbolje kritično područje Co C R, veličine a = 0,055 = 5,5%. Budući da je 


Po(AX > 0) + Po(AX = 1) + Po(X = 2) = 

= NA =8) + PX =9)+B(4A =10)=a=5,5%, 
može se reći da kritična područja Ca = (z€R:z<2iC=(rER:z>68), 
hipoteze Hy, imaju veličinu a = 0,055, jer očigledno vrijedi Py(.X € Cy) = 


= Pa(X € C) =a. Iz tabl. | također se vidi da je 


(25) P(X EG) =P(X=0)+P(X=1)+P(X=2) =0,167 = 16,7%, 


mn 
oi mon.) 


rana 
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dok je | 
(26) P(X e C) = P(X = 8) + Pi(X =9)+ P.(X = 10) = 0,013 = 1,3%. 


Iz (25) i (26) proizlazi da je R(X € Co) > P,(X € C), pa se može zaključiti da 
je Co bolje kritično područje veličine a za testiranje hipoteze Hg : p = 0,5, prema 
alternativnoj hipotezi Hi:pP=0,4, nego što je kritično područje C. Budući da su 
Co1C jedina kritična područja zadane veličine a, slijedi da je Cy najbolje kritično 
područje veličine a. | 
Prema tome, najbolji test san = 1lia = 0,055 za prepoznavanje novčića 
funkcionira tako da se hipoteza Hy (novčić je pravilan) odbacuje onda ako se ra: 
likom 10 bacanja toga novčića dobije manje od 3 grba. U protivnom, hipoteza Hy 
se prihvaća. Pogreška prve vrste, tj. vjerojatnost da se odbaci istinita hipoteza 
iznosi a = 5,5 %, a pogreška druge vrste, tj. vjerojatnost da se prihvati neistinita 
hipoteza, iznosi Po=1—Pi(X € Ca) = 83,3%. Pogreška prve vrste je snošljivo 
velika, dok je pogreška druge vrste očigledno prevelika, ali to je najbolje što se 
može postići s veličinom uzorka n = 1 (jednokratnim mjerenjem slučajne vari- 
jable . js se nie S kritičnim područjem (C, za koje je pogreška 
prve vrste također a = 5,5%, pripac i: šk 1 još već 
Cad ri e %) ] padna pogreška druge vrste bila bi još veća 
Ovaj Primjer pokazuje, a to će vrijediti i općenito, da se najbolje kritično 
područje Ch sastoji od onih točaka (21,...,€n) prostora R", za koje vrijedi da je 
Pa(KrE=t1,.4 Ma = 2,) mnogo manje od P,(X, = 21, An S E£n), odnosno 
MALENI NE | | 
Pi(Xi = 2,. aan = i) 
U danom je primjeru n = 1 iu tabl. 1. navedene su vrijednosti odgovarajućih 
omjera, gdje se vidi da se za zy = z = 0 dobiva vrijednost 0,17, za = 1 dobiva se 
0,25, azar =2 dobiva se vrijednost 0,36 toga omjera. Prirodno se, stoga, nameće 
ideja da se najbolje kritično područje Co općenito odredi iz zahtjeva da iromiatrani 
omjer bude manji od unaprijed zadanoga pozitivnog broja c. O tome upravo govori 
Neyman-Pearsonova lema: 


gdje je omjer dovoljno malen. 


Neka su n € Nia(0<a< 1) zadani brojevi i Ho :t=ta nul-hipoteza, uz 
alternativnu hipotezu Hy :f=ft,, koje se odnose na diskretnu ili kontinuiranu 
slučajnu varijablu A. Nekajet > L(t),te0o = itti,t2), pripadna funkcija 
vjerodostojnosti (v. (36a) i (36b) u VI.3) i neka je c takav pozitivan broj da su 
zadovoljeni uvjeti | 


(i) Bisa Jjećj=a 


“6 za ndasa EC 


(iii) 


ZO, za m rp) ECo= RUC 
Li) pesa , <a E: (0 


ka Je Co najbolje kritično područje veličine a za testiranje Jednostavne 
"poteze Ho, prema alternativnoj jednostavnoj hipotezi H,. 


—— 


ki 
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Dokaz Neyman-Pearsonove leme za diskretnu slučajnu varijablu X analogan 
je dokazu za kontinuiranu slučajnu varijablu AX, samo što se umjesto integrala 
pojavljuju sume. Stoga će se provesti samo dokaz za kontinuirani sučaj, gdje se 
pretpostavlja da slučajnoj varijabli X pripada f.g.v. az > fi(z), z € R, tako da 
pripadna funkcija vjerodostojnosti glasi 


(27) L(t) = fi(zi) . pse ii kk (Zisa iP) € R", t € O. 


Budući da vrijednost L(t) ima značenje gustoće vjerojatnosti slučajnog vektora 
(X1,...,Xn), kada nepoznati parametar ima vrijednost t, za svaki C C R" može 
se pisati 


(28) PA) eC)= | 0 dz, 
Cc 
gdje znak j označuje n-struki integral po skupu C, dokjedae =de, >... dg. 


Ako . Co C R" jedino kritično područje veličine a, onda je lema očigledno 
istinita. Ako, pak, postoji kritično područje (/ veličine a 1 € £ Ch, onda vrijedi 


(29) CE (OHR EJUTE €). 


(30) Celo, VOSE M GON. 


Slika 18. Skica odnosa skupova C i Co 


Budući dasu CoNC i CNC, kavi CoNC i CNC disjunktni skupovi (v. 


sl. 18), iz (29), (30) i svojstva aditivnosti integrala proizlazi 


[za )dza = JI Li)de + U L(ti) dz, ž 
Co CoNnC CoAC 
| zo des= / L(t,) dz + JI L(ti) dz, 

ConC CGnE 


tako da se može pisati 


(31) | zeode- [zada = / L(t)da — ji L(ti) dz. 


Co Cc Čan Ga€ 


VIII.3 Neyman-Pearsonova lema 203 


Iz uvjeta (1i) proizlazi da je L(to) S cL(t,) za svaki # = (Z1,...,Zn) € Co, a 
pogotovo za # € CoNC, pa na temelju svojstva monotonosti integrala slijedi 


(32) | ze)de>- 1 L(to)dz. 


Čiac€ Cone 


Iz uvjeta (iii), pak proizlazi da je L(to) > cL(t1) za svaki 2 € Ch, pa stoga i za 
ZEC9NC, iz čega proizlazi 


(33) | ze)da<- / L(to)dz. 


Iz (32) i (33) dobiva se 


/ L(ti) de — ji L(t )de > ni L( (to) dz — ji L(to)dz A 


CAC CoNAC Cano Cene 


što zajedno sa (31) omogućuje zaključivanje da je 


| Zt6)de- | Lo)da > - | zu) de — J L(to)dz| = 


Co C GGOE ConC 
1 
šo: L(to) dz + ore / L(to) dz — / L(to)d = 
OG Co CoNC ConC 
l 
ze L(to)dae— | L(ti)da 
o C 
Imajući na umu uvjet (i) i (28) odmah se vidi daje [ L(to)dz =a, a budući da 
Co 
smo pretpostavili da i kritično područje C ima veličinu a, onda je i [L(iu)da =a, 


C 
tako da se konačno dobiva 


Jzt)de- /z()dz KI 


ća e 
što zapisano prema (28) daje 


EROCA dei) = C9) Z a A g EEE g = (2). 
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Prema (24) to upravo znači da je Cy najbolje kritično područje veličine a za 
testiranje hipoteze Hg : t = to, prema alternativnoj hipotezi Hi :t=ti,što 1 izriče 
Neyman-Pearsonova lema. 


Primjedba 


Neyman-Pearsonova lema ističe relacije (1), (ii) i (ili) kao dovoljan uvjet da Ch 
bude najbolje kritično područje. Može se, međutim, dokazati (v. [25]) da su to i 
nužni uvjeti. 


4. primjer 


Primjenom Neyman-Pearsonove leme treba konstruirati najbolji test, sa 
zadanom veličinom uzorka n i razinom značajnosti a, za testiranje jednostavne 
hipoteze Ho : u = Plo, prema jednostavnoj alternativnoj hipotezi Hy : u = M, 
pri čemu se pretpostavlja da je vrijednost slučajnog uzorka (Z1,...,Zn) dobivena 
mjerenjem slučajne varijable X — N(pu, 1). 

Stavimo t = u, pa se pripadna f.g.v. može izraziti formulom 


(34) hda) = zem gle : 2 | 


iz čega, na temelju (27), slijedi da pripadna funkcija vjerodostojnosti glasi 


(35) L(t) = (27)-? exp -3 X (mi — u 


i=1 


Stavljajući u (35) t = po 1 zatim t = su, nalazi se da je 


exbje; > (au — 140)? n 
L(10) a oo [4 Ženo] = eXp (3 > (zi — Mo)? “s (T; = m) = 


iz=1 


i=1 


Z 1 Re Ga 
— exp ba = 11) pa ti — 7 0 sE o) 


n 
Budući da je X 2; = nz, uvjet (ii) iz Neyman-Pearsonove leme glasi 
i=1 
j 


NN, 
exp [nZ(poo — pu) — 5(16 — 1)] < e, 


odnosno, nakon logaritiniranja glasi 


4 s. ] lo o 
(36) T(to— M) < a Inc + 5 (M0 oj) 
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Daljnji zaključci ovise o tome je li uo < Mi ilije do > Ma. Ako je uo > M, tj. 
ko — Mi > 0, onda (36) postaje 


Inc l 


31 Neo dp = 
so vena gdo ka s 


tako da najbolje kritično područje Ch ima oblik 
(38) Co= Hi; P,rYER" +22 < C0): 
Iz uvjeta (i), da C4 ima veličinu a, proizlazi relacija 


(39) Po(A ć c) =a. 


E => 1 odi 
Budući da X > N 0 =) (39) se može pisati kao 
n 


PL/A(co — po)] = a, 
iz čega proizlazi 


(40) Co = Mo+ > P-!(a). 
Sa (38) i (40) određeno je najbolje kritično područje Ch za testiranje hipoteze 
Ho: u = Po, Prema alternativnoj hipotezi Ij : u= M, za slučaj ui < so. Ako 
je a < 0,5, a uobičajene vrijednosti za a su 0,01 i 0,05, tada je $-!(a) < 0, pa 
iz (40) slijedi da je €g < po, a to znači da se hipoteza Hg odbacuje onda ako se 
mjerenjem dobije premalena vrijednost uzoračke aritmetičke sredine FZ, u usporedbi 
s pretpostavljenom vrijednosti pw, jer je tada ?logičnije" prihvatiti hipotezu Hi. 
Uzme li se, na primjer, n = 91a = 0,05, iz (40) se dobiva cg = to — 0,55, tako 
da će, za svaki ty < Mo, test s kritičnim područjem 


Co=((zi,...,29) ER? :F < po — 0,55) 


biti najbolji test za testiranje hipoteze Hy : 4 = po, prema alternativnoj hipotezi 
Hrs= 14. 

Vjerojatnost pogreške prve vrste općenito se podudara s razinom značajnosti 
a, dok vjerojatnost pogreške druge vrste, tj. vjerojatnost da se prihvati hipoteza 
Ho kada stvarno nije istinita, jest 


(41) Bo=1I-P((X,...,Xn) E CG) =1—P(X < co) = 
= 1— Plvn(nto — pa) + $-'(0)]. 
Tako se, na primjer, zan =9, a = 0,051 uo — Mi = 1 dobiva 
Bo=1—e(3— 1,65) = I — P(1,35) a 0,08. 


S uzorkom veličine n = 100 dobili bismo Bo = 0, pa se može reći da se opisanim 

testom s visokom pouzdanošću (a = 0,05, = 0) razlučuju dvije normalne raz- 
. . .. ") 2... S . . . . . . . 

diobe iste varijance (s* = 1), čija se očekivanja razlikuju za jedinicu (o—Mi=1). 
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Iz (41) se razabire da se vjerojatnost pogreške druge vrste smanjuje s 
povećanjeni uzorka, a također i s povećanjem razlike očekivanja (tg — #1) pret- 
postavljenih normalnih razdioba. No, i intuicija nas upućuje na to da će se lakše 
razlučiti, na temelju n mjerenja, normalne razdiobe čija očekivanja se više razlikuju, 
tako da formula (41) daje kvantitativnu mjeru za spomenutu intuitivnu spoznaju. 

U slučaju pt > kto, nejednakost (36) dijeli se negativnim brojem po — 1ti 1 stoga 
postaje 

Inc 


s > kzlm +) = 
I == — (M L pa 
Ta s Ho Tr Mi Eo» 


pa najbolje kritično područje C4 ima oblik 


(42) nE tasta VER E 26h 


Uvjet (1) dovodi do jednadžbe 


Po(AX 2 Co) —_ a, 


iz koje odmah proizlazi 


1— Pl(co - mo)vn) =a, 


1 dalje 
a 
(43) Co E Mo+ ke (1-—a). 


Ako je a < 0,5, onda je -1(1 — a) = —O-!(a) > 0, pa se iz (42) i (43) razabire 
da će se hipoteza Hg odbaciti onda ako se dobije prevelika vrijednost F, u odnosu 
na pretpostavljenu vrijednost pw. Tada je očigledno razumnije prihvatiti hipotezu 
Hi, koja pretpostavlja veću vrijednost uy nepoznatog očekivanja. 

Iz (40), kao i iz (43), vidi se da co (cg) ne ovisi 0 /ti, što znači da će test s 
kritičnim područjem Co (C4) biti najbolji test za testiranje jednostavne hipoteze 
Ho: 4 = Mo, prema alternativnoj hipotezi Hy : u = Mi, za svaki ty < po (M1 > Mo). 


4. Jednoliko najsnažniji test 


Razmatranja u 4. primjeru upućuju nas na ideju kako da se općenito definira 
najbolji test za testiranje jednostavne hipoteze Hg :t = to, prema složenoj alterna- 
tivnoj hipotezi Ii, :t€ 01,0; = 01th). 


Ako je Co najbolje kritično područje veličine a, za testiranje jednostavne 
hipoteze Hg : t = to, prema jednostavnoj alternativnoj hipotezi Hr t=ti, 
za svaki ty € Oy, onda se test s kritičnim područjem Cy zove jednoliko naj- 
snažniji test za testiranje jednostavne hipoteze Hg : t = to, prema složenoj 
alternativnoj hipotezi Hy :t€0,. 


Odmah se vidi da je test iz 4. primjera s kritičnim područjem Ch, definiranim 
4 a) . . D e ..« . . . , 
u (38), jednoliko najsnažniji test za testiranje jednostavne hipoteze Hg : u = pt, 
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prema složenoj alternativnoj hipotezi II; : u < po. Isto tako je test s kritičnim po- 
dručjem CY, definiranim u (42), jednoliko najsnažniji test za testiranje jednostavne 
hipoteze Ig : u = po, prema složenoj alternativnoj hipotezi Hy : u > po. 

To bi nas moglo navesti na pomisao da se može konstruirati jednoliko najsnaž- 
niji test za testiranje jednostavne hipoteze Ig : u = po, prema složenoj alterna- 
tivnoj hipotezi H; : u uo, tako da se za kritično područje C uzme skup 


(44) C=4(z,...,€n) € R" : [€ — pol > 6), 


gdje je 6 = So o-! (5) određen tako da CC ima veličinu a, tj. da test ima ra- 
n 

zinu značajnosti a. Međutim, taj test nije jednoliko najsnažniji test, jer kritično 
područje C, definirano u (44), očigledno nije najbolje kritično područje za testi- 
ranje jednostavne hipoteze Hg : u = kto, prema jednostavnoj alternativnoj hipotezi 
Hi: u= m (m uo). Vidjeli sno, naime, da je za tj < sto najbolje kritično po- 
dručje Co # C, dok je za uu. > po najbolje kritično područje C4 £ C. Stoviše, 
vidi se da ne može egzistirati jadnoliko najsnažniji test za testiranje hipoteze 
Ho: u = kto, prema alternativnoj hipotezi II; : u 2 pg, Jer ne postoji jedinstveno 
kritično područje koje bi bilo najbolje, uz alternativnu hipotezu Hi: u= M,za 
slučaj li < to 1 također za slučaj pt > Pt. 

Iz definicije jednoliko najsnažnijeg testa za testiranje jednostavne hipoteze 
Ho :t = to, prema alternativnoj hipotezi Hy :t € 0; (0, = OWto)), proizlazi 
da funkcija snage Ko jednoliko najsnažnijeg testa zadovoljava uvjete 


(45) Ko(to) = a; 
(46) KORO te: 


gdje je X funkcija snage bilo kojega drugog testa sa zadanom veličinom uzorka n 1 
veličinom kritičnog područja a. 

Budući da je B(t) = 1— K(t), t € 0,, vjerojatnost pogreške druge vrste, iz 
(46) slijedi da je 


(47) Bo(t) =1-— NKo(t) < I — K(t) m D(d). t € O, 


što pokazuje da u jednoliko najsnažnijem testu vjerojatnost pogreške druge vrste 
nije veća od vjerojatnosti pogreške druge vrste u bilo kojem drugom testu s jed- 
nakim n1a. 

Tako, na primjer, funkcija snage No jednoliko najsnažnijeg testa za testiranje 
hipoteze Hg : u = tg, prema alternativnoj hipotezi H, : u < to, kojemu pripada 
kritično područje Ch, definirano u (38), glasi 


(48) Ko(n) = POT < co) = Vl(pro — 1 V/n+ 671 (09), u € (09, no] 

Funkcija snage, AK4 jednoliko najsnažnijeg testa za testiranje hipoteze 
Ho: u = po, prema alternativnoj hipotezi H,; : g > po, kojemu pripada kritič- 
no područje CY, definirano u (42), glasi 


(49) K4() = PAX > co) = Pl(r— mo) + 97 (0)], 1 € [pt0,00), 
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dok funkcija snage K testa za testiranje hipoteze Hg : u = Pto, prema alternativnoj 
hipotezi Hy : u # po, s kritičnim područjem €, definiranim u (44), glasi 


(50) K(u) = B (uo — vn + o! (5)| Fi o (g jn ro" (5) oneR. 


v= Ko(u) 


0 


Slika 19. Skica grafova funkcija Ko, KG i K 


U prvom i drugom slučaju imamo jednoliko najsnažnije testove, što znači da ne 
postoji test čija bi funkcija snage imala graf iznad odgovarajućeg grafa na slici 19. U 
trećem, pak, slučaju, gdje nam se intuitivno čini da smo odabrali najbolje kritično 
područje C za testiranje jednostavne hipoteze Ilg : u = Bo, prema složenoj alter- 
nativnoj hipotezi Hi : u po, dobiva se graf funkcije snage koji je svagdje, osim u 
točki o, ispod grafa funkcije Ky, odnosno A4. Testira li se jednostavna hipoteza 
Ho: = Mo, prema jednostavnoj alternativnoj hipotezi Hy : u = Mi, Za svaki 
Hi Ž po postoji snažniji test, tj. bolje kritično područje od onoga, definiranog u 
(44), koje se čini najboljim za testiranje jednostavne hipoteze Hy : u = lo, prema 
složenoj alternativnoj hipotezi H; : uf po. 

To nam pokazuje da se općenito može smatrati da je problem nalaženja naj- 
boljeg testa, uza zadane n i a, riješen onda kada postoji jednoliko najsnažniji test. 
Nevolja je, međutim, u tome, što uvijek ne postoji jednoliko najsnažniji test za 
testiranje jednostavne hipoteze Hy : t = to, prema složenoj alternativnoj hipotezi 
H,:t€0,; (0; = 0\(t9)), pa se prirodno nameće ideja da se usvoji novo načelo 
za definiranje najboljeg testa. To će nas dovesti do metode omjera vjerodostojnosti, 
odnosno do tzv. LR-testova (likelihood ratio). 


5. Metoda omjera vjerodostojnosti 


Već je ranije istaknuto opće načelo za definiranje kritičnog područja C nekog 
testa, koje se sastoji u tome da se u C/ uključe one točke (Z1,...,Zn) € R" kojima, 
pod uvjetom da je hipoteza Hy istinita, pripada mala vjerojatnost (gustoća vjero- 
jatnosti) u usporedbi s vjerojatnosti te točke, uz uvjet da je istinita alternativna 
hipoteza H,;. To je načelo bilo jednostavno operacionalizitati u slučaju jednos- 
tavnih hipoteza, što je i učinjeno Neyman-Pearsonovom lemom, gdje je ključnu 
Lito 
L(t,). 
nost toga onijera u nekoj točki (z,,...,2,) € R" upućivala je na veliku mogućnost 
da hipoteza Ig nije istinita, što znači da tu točku treba uključiti u kritično područje 
testa. 


Mala vrijed- 


ulogu u definiranju najboljeg kritičnog područja imao omjer 


| 
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Ako je riječ o testiranju jednostavne hipoteze Hg : t = tg, prema složenoj 
alternativnoj hipotezi Hi :t € 0), onda za svaki t € 0; funkcija vjerodostojnosti 
L(to) 


ima određenu vrijednost L(t), tako da se ovdje ne može govoriti o omjeru 


L(t) 
kao konstantnoj veličini pridruženoj točki (2;,...,£n) € R". Taj omjer je sada 
funkcija nepoznatog parametra t. Postoji li međutim 


(51) max L(t) = L(t,), 


teo 


L(to 
M | Ltli) 4 Spa 
je taj broj dovoljno malen, onda to upućuje da tu točku treba uključiti u kritično 
L(t . L(t 
(fo) < 1. Ako je (to) 
L(h) L(li) 
označuje da je vjerojatnost (gustoća vjerojatnosti) Z(to) da se dobije baš izmjereni 
niz podataka z1,..., Zn, UZ uvjet da nepoznati parametar ima vrijednost tg, zane- 
marivo mala u odnosu na najveću inoguću vjerojatnost da se dobije taj niz podataka 
pri variranju parametra £ po cijelom skupu O dopuštenih vrijednosti. Primijetimo, 
nadalje, da je ti € O ona vrijednost parametra nepoznate vjerojatnosne razdiobe 
za koju dobiveni niz podataka ima najveću vjerojatnost (gustoću vjerojatnosti), pa 
: L(to) 
L(ti) 


bh 


onda je vrijednost onijera u točki (z1,...,£n) određeni fiksirani broj, pa ako 


područje testa. Primijetimo najprije da je a 0, onda to 


najmanja vrijednost onijera Pri variranju parametra t po skupu 0. 


L() 


Veličina 


(52) Adisa) = 


L(to) L(to) 
max L(t) 


L(t) 


teo 
zove se omjer vjerodostojnosti u točki (zi,...,zn) E R'. 
Ako je i nul-hipoteza složena hipoteza, tj). Ho :t € 09, 1 ako postoji 


mam 


onda se onijer vjerodostojnosti definira formulom 


E 1) 


= maxL(t) u L(ti) 


teo 


Primijetimo da je ti vrijednost ML-procjenitelja za nepoznati parametar t (v. VI.3). 
Očigledno je A(Z1,...,Zn) S 1, tako se dobije A(z1,...,Zn) £ 1, onda točka 
(Z1,...,Zn) ne bi trebala pripadati kritičnom području za hipotezu Hg. Ako je pak 
MZi,...,Zn) £ 0, onda niz mjerenja zi,...,£, upućuje na činjenicu da je njegova 
maksimalna vjerojatnost (gustoća vjerojatnosti) L(to), uz uvjet da je hipoteza Hy 
istinita, zanemarivo mala u odnosu na njegovu maksimalno moguću vjerojatnost i 
da bi stoga točka (z;,...,£,) trebala pripadati kritičnom području hipoteze Hy. 
Sada se čini razumnim smatrati da će se dobiti dobar test ako se kritično 
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Khe š . n 
područje (/ odabere tako da se u njega uključe one točke 12 prostora R (prostor 
vrijednosti slučajnog uzorka) za koje je pripadni omjer vjerodostojnosti manji od 
zadanog brojac (0 <c<1). 


itič č) stiranj : ce hi € € 0, prema 
Ako kritično područje C, za testiranje pararmetarske hipoteze Ho :t € 09,1 


alternativnoj hipotezi H,:t€0;,ima oblik 


(59) C=1(z,...,Zn) ERP: A(za,.-.)2n) S e); 


onda se kaže da je test dobiven metodom omjera vjerodostojnosti, odnosno 
da je riječ o LIč-testu. 


:)) drma značenje omj stoj i u točki 
U formuli (55) A = A(Z1,...,Zn) ima značenje omjera vjerodostojnosti e 
(Zi Zn). Ako se pretpostavi da nepoznati parametar vjerojatnosne razdiobe 
E : : S . . KS . 
P, ima konkretnu vrijednost t € 0, onda se može govoriti o slučajnom Ph 
(Xi, Xn) 1 statistici Benremo E— pripada odgovarajuća Tunkcija 


razdiobe vjerojatnosti 
(56) FA t)=PA<»A) ACER 


Često je statistika A(X1,...,Xn), koja proizlazi iz omjera vjtodele no 
takva da je teško odrediti njezinu razdiobu vjerojatnosti, pa se tada Mona) 
MZi,.-.,Zn) S c, koja se pojavljuje u (55), transformira u ekvivalentnu MiLo3 
nakost h(z1,...,Zn) < Co (ili > Co), pri čemu statistika h(Xi,...,Xn) = 
obično ima lako odredivu razdiobu vjerojatnosti. N. | 

Statistika X, = h(X,...,Xn) zove se test- statistika danog testa. Test- 
_statistikom se, zapravo, kritično područje € C R" preslikava u skup realnih bro- 
jeva R, kao odgovarajuće kritično područje h(C) C R, što je geometrijski interpre- 
tirano na slici 20. 


R" 


Slika 20. Interpretacija kritičnog područja na brojevnom pravcu 


Želi li se, dakle, konstruirati LR-test, uz zadanu veličinu uzorka na zadanu ra- 
zinu značajnosti a, treba najprije pomoću onijera vjerodostojnosti naći funkciju h, 
a zatim odrediti vjerojatnosnu razdiobu statistike Yn = h(Xi,.-<,Xn), uz pret- 
postavku da nepoznati parametar ima vrijednost t, tQJ. dobiti formulu za f.r.v. 
Fp(y,t) slučajne varijable X. To omogućuje da se odredi co tako da kritično 
područje 


(57) GEL ned VE M Mio jo eni 
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ima veličinu a, tj. da test ima razinu značajnosti a. Pripadna funkcija snage, prema 
(9), može se zapisati kao 


(58) klija PKK soja Boje ž ns Fis; eo: 
dok iz (12) proizlazi 


5 = t 
(59) a = max Fn(co, ) 


što načelno omogućuje nalaženje konstante cy. 

Lako se može provjeriti da u slučaju dvočlanog skupa O = (tg, ti) dopuštenih 
vrijednosti za parametar t, tj. kada je Hy :t=tiH:t= ti, metoda omjera 
vjerodostojnosti i Neyman-Pearsonova lema dovode do istog rezultata, iz čega se 
vidi da se načelo omjera vjerodostojnosti može smatrati određencin generalizacijom 
načela najmanje vjerojatnosti pogreške druge vrste. 

Svi razmotreni primjeri, a to će se vidjeti 1 u idućim primjerima testova, 
pokazuju da vrijednost y, test-statistike Y,, indicira stanje promatrane pojave u 
uvjetima istinitosti nul-hipoteze. Relacije (57) 1 (59) mogu se, prema tome, pro- 
tumačiti tako da se nul-hipoteza odbacuje onda kada se dobije malo vjerojatna 
vrijednost yn test-statistike Y,,, odnosno kada y, padne u malo vjerojatno (vjero- 
jatnosti ne veće od a) područje skupa svih mogućih vrijednosti test-statistike Y,,. 


6. "Testovi o parametrima normalne razdiobe 


Metoda omjera vjerodostojnosti vrlo jednostavno omogućuje konstruiranje 
LR-testova za testiranje uobičajenih hipoteza o parametrima normalne razdiobe 
N(u,o“). U idućim primjerima prikazat će se postupak određivanja kritičnog po- 
dručja za određene hipoteze o parametrima normalne razdiobe uz pretpostavku da 
je zadana veličina uzorka n (n € N) i razina značajnosti a (O <a < 1). 


5. primjer 


Pretpostavlja se da je g (g > 0) poznato i treba konstruirati LR-test za testi- 
ranje jednostavne hipoteze Hy : u = Mg, prema alternativnoj hipotezi H, : uf pg 
(u E R). Vodeći računa da je t = u lako se uviđa da funkcija vjerodostojnosti glasi 


: 1 n 
mom _ mam > 
(60) L(n) = (2ro*)"? exp 32 ) (zi — “|, nEeR. 


iz 
: nt ' BE 
Lako se dokazuje (v. VI.4) da ona postiže svoj maksimum zau=r=-(m+...+ 


+ 21), tako da je 


1nax L(u) = n== 2\-Ze prao oazi ve 
ni (W) = L(£) = (27a*)7 7 exp sao a Tr) 


A e 


| 
Ko 


onih pošao ponam ' 
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U ovom je primjeru to = /to, pa se iz (52) vidi da omjer vjerodostojnosti glasi 


: | g 
(27o“)-?2 exp =: > X (Zi — 140) | 
20* iz1 
AMzži, ssa) = 1 i o 
(2To2)-% exp -: s (2; — "| 
20“ iz=| 


i=1 =1 


g nn 
mic —_ 40)". , 


= exp 


Kritično područje LR-testa definira se, prema (55), tako da se postavi uvjet 


n 
exp i (ge 40)%) KE 
20% ja 


koji se, nakon logaritmiranja i sređivanja, može zapisati kao 


(61) (i =va) > —2lnc. 


o 


Budući daje0 <c<1,ondaje Ine <0i vV-2lnc = co > 0, pa se uvjet (61) 
može pisati i kao 


(62) 


POJ 


o 


2 CQ. 


Stoga se kritično područje Cg može zapisati u obliku 


zna 


Budući da je osnovna pretpostavka da mjerenja z1,...,Zn Potječu od slučajne 


(63) CjE ((21 420) € TO : o i o 
o 


a : | ho s. l ' 
varijable X < N(pu,o?), onda statistika X = (že) Pretpostavljeno Je, 
n 
nadalje da je varijanca o? poznata, pa ako je u = Mo, tj. kada je hipoteza Ho 


Stvarno istinita, statistika 


(64) Gas EU o O 
og 


. Da bi razina značajnosti testa (veličina kritičnog područja Co) iznosila a, na 
emelju (58), (59), (63) i (64) zaključuje se da treba biti 


a = P,(lZ| > 0) =2— 29(09), 
odnosno 


(65) ca= 0! (1 — =) ' 
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Prema tome, LR-test za testiranje jednostavne hipoteze Hg : u = po, prema 
složenoj alternativnoj hipotezi Hi : u £f po, uz zadanu veličinu uzorka n i razinu 
značajnosti a, ima kritično područje 


(66) Co SUH GenJjEnR fizi žu): 


£ — Bo 


gdje je z = Vn, a co je određeno formulom (65). Vidi se da je Cg određeno 


na temelju test-statistike Z, definirane u (64). 

Uzme li se, na primjer, a = 0,05, iz (65) se dobiva co = P-1(0,975) = 1,96 
(v. tabl. III. u Dodatku), što znači da se kritično područje može interpretirati kao 
skup točaka brojevnog pravca sastavljen od intervala (—oo; —1,96] U [1,96; 00), što 
je zorno prikazano na slici 21. 


—3 —_2 —1 D+ 1 2 3 


Slika 21. Skica kritičnog područja Co iz (66) 


Dobije li se na uzorku veličine n = 25 vrijednost uzoračke aritmetičke sredine 
£=4,6,a testira li se hipoteza Hy : u = 5, prema alternativnoj hipotezi Hy : u #5, 
pri čemu se pretpostavlja da normalna razdioba ima varijancu o“ = 1, dobit će se 


4,6 — 5 Loši m a. 
Mo +5=2> co = 1,96, pa se vidi da vrijednost test-statistike Z pada 


Iz| = 
u kritično područje, što znači da hipotezu Ho treba odbaciti. Dobivena vrijednost 
Iz] = 2 pada u malo vjerojatno područje test-statistike Z, što upućuje na stanje u 
korist hipoteze Hi. 

U modelu testiranja hipoteze o parametru pu normalne razdiobe N(u, o“), uz 
poznatu varijancu o“, mogu se razmatrati i druge različite hipoteze, kao što su, na 
primjer: 


(a) Ho:u= po, prema Hy: > po, 
(b) Ho: u=po, prema Hi: < po, 
(c) Ho: u< po, prema Mi: > po, 
(d) Ho: > po, prema Hy: < pio. 


Sličnim razmatranjem kao maloprije mogu se odrediti odgovarajuća kritična 
područja, uz zadano n i a, pri čemu se dobiva da u svakom od navedenih primjera 
(a)-(d) ključnu ulogu ima test-statistika Z, definirana u (64). Tako se pokazuje da 
odgovarajuća kritična područja pripadnih LR-testova glase: 


(ay) Co=d(zi,...,Zn) EM :z2>6-(1—a)), 
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(b,) Co= ((21,...,m) ER" :z < 0-1(0)), 

(cy) Co=1(z,...,n) ER" :z>%'(1—a)), 

(di) Co=((z,,...,zn) ER" :z<0-/(a)), 

&lje je 2 = dali Vn vrijednost test-statistike Z dobivena na n-članom slučajnom 


uzorku, 


Imajući na umu razmatranja u 4. primjeru, vidi se da su testovi (a1) i (b,) 
također i jednoliko najsnažniji testovi. 

U (G4) se uočava da se vrijednosti test-statistike Z mogu interpretirati kao nor- 
Mrane razlike između istaknute vrijednosti po nepoznatog parametra pt i vrijednosti 
2 procjenitelja X parametra u. U slučaju (a) i (c) hipoteza Ho se odbacuje kada 
Se dobije prevelika normirana razlika (veća od P-1(1 — a)) između Zi o, tj. ako 
Je dobiveno z previše desno od pw na brojevnom pravcu. Tada, naime, izmjereni 
Podaci upućuju na alternativnu hipotezu HI, kao istinitu, što znači da Hy treba 
odbaciti. 

: U slučaju (b) i (d) hipoteza Ig se odbacuje kada se dobije premala (manja od 
e (&)) normirana razlika između F i lo, t). ako je dobiveno Z previše lijevo od pt 
Na brojevnom pravcu. 

Kao što smo već i ranije istaknuli, nul-hipoteza se odbacuje onda kada se 
dobije vrijednost test-statistike koja, u uvjetima istinitosti nul-hipoteze, pripada 
malo vjerojatnom području skupa svih mogućih vrijednosti test-statistike (v. sl. 


21), 


6. primjer 


Parametar € — (u,o*) shvaća se kao vektorski parametar normalne razdiobe 
N(u, a2), sa skupom dopuštenih vrijednosti € = ((1,0*) :u ER], a“ > 0). Is- 
takne li se njegov podskup &% = ((1,02) : a2 > 0), gdje je pw fiksirani realni 
o), Može se postaviti zadatak testiranja složene hipoteze Ho : € € 64, prema 
alternativnoj složenoj hipotezi H, :t e O, (0; == 06.). Uobičajeno je da se taj 
zadatak formulira kao testiranje hipoteze Ilg : u = uo, prema alternativnoj hipotezi 
JETE- Ko, UZ pretpostavku da je varijanca o“ nepoznata. 
Funkcija vjerodostojnosti zapisana je u formuli (45) u VI.4, gdje je riješen i 
Problem određivanja max L(t)= L(t:), pri čemu je ti = (£,0“), 


tco 
ZJ 1 n 
G = — 2 (Zi = 2") 
Nizi 
Iz definicije skupa 0, proizlazi da je 


max L(t) = max L(/t9, 07) = L(po, 8.) 
tc0, o2>0 


2_ (Zi > o)“, tako da pripadni omjer vjerodostojnosti glasi 
gl 


| 
| 
| 
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n 


n 


2 
S L(to) 2 žoddi — Mo)? 


i=1 


> (2; =) 


izi|1 


Kritično područje pripadnog LR-testa određeno je uvjetom 


n Z 
(Zi — Mo)“ 
e <e, 
) (2 >)? 
izi 
koji nakon sređivanja postaje 
x 9 
£ — uo)“ 
(67) zad I 
O 
. S o š 3 n9 n == l " 9 l HB 49 3 
Uzme li se još u obzir da je o“ = m. ša i >. (2: —T)“), (67) postaje 
EKE 
no (Z— pu) ma 
n—1l $s? = ' 
odnosno 
I — u 
(68) = > 60) G= lGrsljterra ) 2:0: 
S 
Kritično područje Cg LR-testa za testiranje hipoteze Hg : u = po, prema 


alternativnoj hipotezi Hi : 4 2 po, pri nepoznatoj varijanci #2 normalne razdiobe 
N(u4,o7), može se, prema tome, zapisati u obliku 


(69) GE. )JER": — ja > eo). 


Ostaje još da se konstanta co odredi tako da kritično područje Cy ima zadanu 
veličinu a. U tu svrhu primijetimo najprije da se Z i s? mogu shvatiti kao vrijednosti 
statistika X (uzoračka aritmetička sredina) i 5% (uzoračka korigirana varijanca), 
A — uo 
—z— vn Uočimo također da, u 
uvjetima istinitosti hipoteze Hy, statistici T' pripada Studentova razdioba t(n—1) 
sa n — 1 stupnjeva slobode (v. VI.2). Može se, stoga, pisati 


pa se može govoriti o test-statistici X, = T = 


A — ito 


(70) 1 


Vnaetore1). 
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Budući da je 
a = Pl)... X0) € Co) = PATI > 60), 


pa ako se još sa (GG, označi f.r.v. Studentove razdiobe sa n stupnjeva slobode, može 
se pisati 
PolIT| > Co) == Žlriiteo); 


što proizlazi iz činjenice da je Studentova razdioba simetrična s obzirom na ishodište 
(v. sl. 22). Konačno se dobiva 


za a 
(71) e=G;1(1-5), 


gdje je GZ! inverzna funkcija od G,,. 
Iz (69) 1 (71) razabire se da kritično područje Ch ovisi, kao i uvijek, o veličini 
uzorka n i razini značajnosti a, te da se odluka o prihvaćanju, odnosno odbacivanju, 


' a Do ' ZT — Mo om ' 
hipoteze Ho donosi na temelju vrijednosti T = —> yn test-statistike T', opisane 
S 


u (70). Zanimljivo je primijetiti da se i u ovom slučaju vrijednost test-statistike 
može interpretirati kao određena normirana razlika između istaknute vrijednosti /tg 
parametra i vrijednosti z njegova procjenitelja X. 


Uzme li se, na primjer, a = 0,05 1n = 25, primjenom tabl. V. iz Do- 
' : 0,05 _ Ema 
datka, dobiva se cy = GZ [1— 5) = G74 (0,975) = 2,064, pa se kritično 


područje može prikazati kao skup točaka brojevnog pravca sastavljen od intervala 
(—oo; —2,064] U [2,064 ; oo), što je prikazano na slici 22, zajedno s krivuljom raz- 
diobe test-statistike T'. Dobiju li se na izmjerenim podacima vrijednosti z = 4,61 


s= 1,a testira se hipoteza Hg : u = 5, prema alternativnoj hipotezi Hi : u #5, 
a ' zala 46 —95 ra j 
vrijednost je test-statistike T = ———:5 = —2. Budući daje |r| = 2 < co = 2,064, 


hipotezu Hy treba prihvatiti. 


Slika 22. Skica kritičnog područja CY iz (69) 


j 


Usporedi li se ovaj rezultat s onim u 5. primjeru (usp. sl. 21.1 22), razabire 
se da je kritično područje u 5. primjeru, uz iste n i a, nešto opsežnije od ovoga 
u 6. primjeru. No, to se moglo i očekivati, jer se u 5. primjeru pretpostavlja 
poznavanje varijance o“, dok se u 6. primjeru primjenjuje procjena s* za nepoznatu 
varijancu o*, što utječe na veći oprez pri odbacivanju hipoteze Ilg, tj. na smanjenje 
kritičnog područja. Zato se i moglo dogoditi da se, na temelju jednakih vrijednosti 
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_—_—_-_——_—————————__— o AA 


odgovarajućih test-statistika (ž = T = 2), jednom hipoteza Hy odbaci (5. primjer) 
a drugi put prihvati (6. primjer). | | 

Istaknimo još i to da se hipoteze (a)-(d) iz 5. primjera mogu testirati i uz 
pretpostavku da je varijanca o* nepoznata. Može se dokazati (v. zad. 12) da se pri- 
padna kritična područja odgovarajućih LR-testova također mogu definirati pomoću 
vrijednosti 7 statistike T', definirane u (70). Ona glase: 


(a2) Co=4z...z)€R":1>G7li(1—e)), 
(b2) Ca=lUči; sm jER sreco 
(c2) Co=4(m,...m)€R":7>G7li(1—0)), 
(d2) G= (2.2) ER" :1<G7(a)), 

ZL — Plo 


gdje je T = yn vrijednost test-statistike T. 


7. primjer 


Pretpostavlja se daje u = 0 i treba, primjenom Neyman-Pearsonove leme, kon- 

struirati test za testiranje jednostavne hipoteze Ily : a2 = of, prema alternativnoj 
. . : 2 3 2 . . : . .,.. . . . 
hipotezi Hy :o* = of, gdje su 04 1 61 zadani pozitivni brojevi. 


Stavimo t = o“, pa je očigledno da pripadna funkcija vjerodostojnosti glasi 
' ša i E 
(72) L(t) = L(o“) = (2707)-* exp oj e? ' 
izi 
Nadalje je 


L(to)  L(o3) E e oi — o 
: = LOT — > — —————— 2 
i) “Go l) laži) 


gi \" g 
: ik 1 0 na 
(73) eXp|-—=>—>) «#i|<ec 
0 20501 “ 
tE 


Pretpostavimo da je g1 > d4, pa se logaritmiranjem relacije (73) dobiva 


n A 9 
l ; 201 01 
=> bo l zz 
S i 2 ——>zinin— — dne | = co, 
: a4 50 


iz čega proizlazi da se kritično područje može zapisati u obliku 


' 9 
(74) CE (asi, ER NE > Co). 


ae. 
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ZOV, go mog = — = 


Budući da je polazna pretpostavka da imjerenja Z1,...,Zn potječu od slučajne va- 
n 
špa 2. : : 
rijable X > N(0, 0“), test-statistika U = zE 3. X? ima hikvadrat-razdiobu sa n 
“iz=! SFANNA 
stupnjeva slobode (v. točku 5. u V.6). Da bi razina značajnosti testa s kritičnim 
područjem (74) iznosila a mora vrijediti 


(75) da Pol(AX, moe >. 6) € Co) = Po(U Ke Co). 
Označi li se sa H,, f.r.v. hikvadrat-razdiobe X2*(n), može se pisati 
P(U>e)=!1- PU <eo)=1- Hp(co), 


pa (75) postaje 
a=t1-H,(co), 


iz čega se dobiva 
(76) pra Hzi(1 —a), 


gdje je HZ! inverzna funkcija od H,,. pa aam 
Iz (74) i (76) vidi se da najbolji test za testiranje jednostavne hipoteze 
Ho 10" = o, prema jednostavnoj alternativnoj hipotezi Hy :o7 = (01 > F0), 


uz zadano n i a, ima kritično područje 


(77) Co= (z1,...)+Zn) ER" Šu 2:66): 


n ; . Bar 2 ' : 
gdjeje u= — 3/2; vrijednost test-statistike U < X*(n), a co je određeno formu 
OQi=1 
om (9) 9" om 
Budući da kritično područje Co ne ovisi o pretpostavljenoj vrijednosti 4 I 
da je dobiveni test jednoliko najsnažniji test za testiranje hipoteze Ho : o“ = 94, 
' . . . . . . 2 9 
prema složenoj alternativnoj hipotezi Il; : g“ > 04. | jeo 
Tako se, na primjer, zan = 251 a = 0,09, primijenom tabl. VI. iz Doc atka, do- 
do _ ipi ritič lručj že Interpre- 
biva da je co = Hu; (0,95) = 37,7, pa se pripadno kritično područje 1 TI dj 
tirati kao interval [37,7;00) brojevnog pravca. Iestira li se pa JEKU = , 
. Ž A . 9) . : 1 
prema alternativnoj hipotezi Hy :o“ > 10, i na uzorku od 25 mjerenja dobije zbroj 


25 5 . , an . R 
kvadrata 2. 27 = 260, vrijednost test-statistike U bit će u = 26. Kako je 26 < 37,7, 


iz1 


Slika 23. Skica kritičnog padručja Co iz (78) 
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vrijednost test-statistike ne pada u kritično područje, a to znači da hipotezu Hg 
treba prihvatiti. Smatra se da dobiveni zbroj kvadrata izmjerenih podataka nije 
prevelik u usporedbi s hipotetičkom varijancom (sg = 10) pretpostavljene normalne 
razdiobe, što upućuje na prihvaćanje hipoteze Hy. 

Sličnim razmatranjima može se izvesti da je 
(78) Co=d(2...,2,) ER" :u < H7'(0)) 
kritično područje jednoliko najsnažnijeg testa za testiranje jednostavne hipoteze 
Ho : 0% = og, prema složenoj alternativnoj hipotezi H, : a2 < of (v. zad. 10b). 


7. Primjena intervala povjerenja 


Konstruiranje najboljih testova primjenom Neyrman-Pearsonove leme 1 metode 
omjera vjerodostojnosti često je računski vrlo složeno tako da se u mnogim, za 
praksu važnim, situacijama ne može dobiti dovoljno jednostavno rješenje. Imajući 
na umu pojam i svojstva intervala povjerenja zadane pouzdanosti y, prirodno se 
nameće ideja da se pri konstrukciji kritičnog područja Ch, razine značajnosti a = 
= 1-—y, za testiranje jednostavne hipoteze IIg : £ = ty, prema alternativnoj hipotezi 
Hi:t 2 ti, postupi na sljedeći način: Na temelju niza mjerenja zi,...,Zn odredi 
se interval povjerenja (gi,g2), pouzdanosti y, za nepoznati parametar £. Pokrije 
li taj interval točku to brojevnog pravca, tj. ako je gr < to < g2, hipoteza Ho se 
prihvaća, a u protivnom se odbacuje. 


a) prihvaća se 


Ho:t=t9 = — === 
Ji to 92 
b) odbacuje se me. pogani: o 
Ho:t=to 0 g1 92 
x. rk: mu: 
91 92 to 


Slika 24. Skica primjene intervala povjerenja u testiranju hipoteza 
To znači da je pripadno kritično područje Ch oblika 
Vk pe ' b. ili 
(79) Co = Die E re R7 2 to Mi se oh: 


Budući da su, u uvjetima istinitosti hipoteze Ho, g, i g2 vrijednosti statistika 
Gi G2 (v. VII.1), za koje vrijedi Po(Giy < ta < G2) > 9,1 imajući na umu de- 
finiciju razine značajnosti testa (v. (9) i (14)), očigledno je da kritičnom području 
(79) pripada razina značajnosti a < | —y. Može se, naime, pisati 


(80) a=PUK,...;An) € Co)=1-P(Gi<to< (2) zd 


Ako statistike Gi i G2 određuju najuži interval povjerenja pouzdanosti 1 za nepo- 
znati parametar t, onda u (80) vrijedi znak jednakosti. 

Prema tome, opisanim se postupkom dobiva test sa zadanoin veličinom uzorka 
n 1 razinoin značajnosti a, ali se ne dobiva odgovor na pitanje o "kvaliteti? toga 
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testa. U nekim slučajevima, posebno kada je riječ o normalnoj razdiobi, opisana 


metoda primjene intervala povjerenja i metoda omjera vjerodostojnosti dovode do 
istoga kritičnog područja (v. zad. 13). 


8. primjer 


Uz pretpostavku da mjerenja zi, ...,Zn potječu od normalne razdiobe N(pu, o), 
treba konstruirati test sa zadanim ni a za testiranje hipoteze Hy : a = 04, prema 
alternativnoj hipotezi H, : 0? # og. saa mam 

Primijetio najprije da je u VII.2. riješen problem određivanja najužeg in- 
tervala povjerenja pouzdanosti y za nepoznatu varijancu o* normalne razdiobe 
N(u,o?), čije su granice određene forinulama (30) u VIL.2. Iz toga 1 (79) slijedi da 
će traženo kritično područje biti određeno nejednakošću 


2 


S 
> => (n-)= žu, 
uo 4 


odnosno nejednakošću 


2 

S 
s<o e (n-l)=<u, 

TI 2% 


gdje je s* vrijednost korigirne uzoračke varijance, a uy 1 u2 odgovarajuće vrijed- 
nosti ovisne o zadanoj pouzdanosti y, odnosno razini značajnosti a. Vidi se da 


odlučujuću ulogu u definiranju kritičnog područja ima vrijednost u = (n — s 
0 
statistike 
g? 9 
(81) U=(n—1l)=A(n— I). 
24 
RANU tao % A Z ž . DEREES 2 
Prema tome, kritično područje Cy pri testiranju hipoteze Ho : o“ = 04, prema 


alternativnoj hipotezi Il, : o? # og, glasi 


(82) Co=d(zi,..)Zzn) ER ug (tu, 42) h, 
gdje je 

_1 (a ui a 
(83) nn (5) oeW=Hzh,l1- 5) | 


Ideje Inetode intervala povjerenja mogu se primjeniti i ma određivanje kritičnog 
područja u tzv. jednorubnim testovima, tj. takvima gdje se testira jednostavna 
hipoteza Hy :t = to, prema alternativnoj hipotezi Hi :t < to (iht > to). Može a 
naime, poći od toga da se za nepoznati parametar £, dopuštene klase vjerojatnosnih 
razdioba P = (P,:t € 0), najprije nađe tzv. jednorubni interval povjerenja zadane 


pouzdanosti y (0<y< 1), tj. takva statistika G:2 za koju vrijedi 


(84) P(Gu>t)=% 
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odnosno takva statistika Gi za koju vrijedi 
(85) PA(Gi < t) = 7. 


Relacija (84) može se interpretirati tako da se kaže da interval (—oo, (2) pokriva 
nepoznati parametar t s vjerojatnošću y. Isto se tako (85) može protumačiti da 


interval (G1, 00) pokriva nepoznati parametar t s vjerojatnošću y. U uvjetima 
istinitosti hipoteze IIy, (84) i (85) postaju 


(84a), Po(Ga > to) = 1, 
odnosno , 
(85a), P(G1<to)=7. 


Kada je alternativna hipoteza I, : t < to, kritično područje Ch definirat će se 
nejednakošću g2 < tg, a kada je II; : £ > tg, nejednakošću gi > tg, gdje su g1 1 92 
vrijednosti statistika Gi, i Go na n-članom slučajnom uzorku. Dobije li se, dakle, 
jednorubni interval povjerenja pouzdanosti y = 1 — a, koji pokriva točku tg bro- 
jevnog pravca, hipoteza Ily se prihvaća, dok se u protivnom prihvaća alternativna 
hipoteza H,. 


a) prihvaća seHg:t=tg 
odbacuje se Hi, :t<to 


to_ 92 
b) odbacuje se Hg :t=t9 
prihvaća Hy :t< tg e 
92 to 
c) prihvaća se Hg :t=t9 
odbacuje se Hj; :t> tg = 
Ji to 


d) odbacuje se Hg :t=tg 
prihvaća se Hj, :t>tg = 
to Ji 


Slika 25. Skica primjene jednorubnih intervala povjerenja u testiranju jednorubnih hipoteza 


Budući da pri Il, :£ < to unarmo 


a = Polka i:« nA o) € (0) — Pu(Go < to) == 1 —_ "Va 


dok pri Hy :£ > tg unamo 
a = Poli (iea e 20) € Co) = Pa(Gi s to) |. y, 


vidi se da tako konstruirani test. ira razinu značajnosti a =1—y7. 
Može se konačno reći da je 


(86) Co dltises 


kritično područje razine značajnosti a za testiranje jednostavne hipoteze 
Ho: t = to, prema alternativnoj hipotezi II, :£ > to (t < to), pri čemu je g; 
vrijednost test-statistike G; (1 = 1,2). 


Zn) € R" :92 < to (Ji > to)) 
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Preformulira li se 8. primjer tako da se za alternativnu hipotezu uzme 
Hy: o < og (ili o" > oš), na temelju onog što je navedeno u VII.2, vidi se 


m = — n—1. 
Gae 2 GE = s), 


U1 u2 


da je 


gdje je S? korigirana uzoračka varijanca 1 
: a : sI 
(87) ui = Hzli(a), tu= Hil —a). 


. , ... si y : Ž 
To znači da je odgovarajuće kritično područje Co određeno uvjetom 


s? < Q a oo ke C0Q |, 
U1 


ll 


zi 
to 


što se može pisati 1 kao 


nl # n—lo po 
5 < u 6 2 da + 


2% 


Može se, konačno, reći da je 


| 2 : : 
(88) Co= d(z1,..,Zn) ER u < tuj (u> tt9) ) 
. : . : a : : 7 SJENA 2 

kritično područje razine značajnosti a jednorubnog testa Ho : o“ = 04, prema 

P 3 š nu— 1 7 a rk sa +. “oat 
Hj:o* < og (0? > og), pri čemu je u = re vrijednost test-statistike 

0 
(B) zas l 2 2 l 
(89) U=———S A (n— 1). 
29 


Činjenica koja je već istaknuta u VIIT.3, da se za velike n interval a 
renja nepoznatog parametra t može odrediti primjenom asimptotske kas / E 1 
odgovarajućeg procjenitelja omogućuje da se konstruiraju određeni testovi 1 bez 
konkretiziranja tipa vjerojatnosne razdiobe. > | 

Neka je, dakle, n veliko i 1, nepristran, konzistentan l asimptotski normalan 
procjenitelj za parametar t, tada približno vrijedi 1, N(t, Rn(t)), gdje je halt 


= VIT,)]. Treba li konstruirati test za testiranje jednostavne hipoteze Hy : t = to, 
prema alternativnoj hipotezi I, :£ 2 to, uzet će se 


VA . Tk 
(90) GS) ; 


kao test-statistika i kritično područje (g odredit će se uvjetom |2,| > Co, pri čemu 
će se konstanta cg odrediti tako da vrijedi 


(91) PollZu | i Co) =a, 


tj. tako da test ina razinu značajnosti a. 
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Buduci da približno vrijedi Z, — N(0, 1), 12 (91) proizlazi 


ad a 
pr u-5), 


tako da kritično područje Ch glasi 


(92) Co=d(21,.- 2) ER" :leal> 0 (1-5)), 
gdje je 

ba = 
(93) ume 


na \V Rullo) 


Uzme li se H; : # < tg (t > to) kao alternativna hipoteza, kritično područje Co 
odredit će se uvjetom z, < ci (Zp > c2), pri čemu će se konstanta ci(c2) odrediti 
tako da test ima razinu značajnosti a, t]. da vrijedi 


(94) P(Za<c) =a (P(Z, > c2) = a). 
Iz (94) i činjenice da Zp, — N(0, 1) proizlazi 

Ci=o(a) (a =6(1—a)), 
tako da pripadno kritično područje glasi 


K 1 Po pa pa no. —1 -1 
(95) Co=d4(zi,...,zn) ER": 2, < 07 (a) (2, > 07 (1—a))). 
Uzme li se, na primijer, očekivanje ju kao nepoznati parametar (t = pu), uz 
pretpostavku da je poznata varijanca o“, tada će se iskoristiti činjenica da je 
T,, = X nepristran, konzistentan i asimptotski normalan procjenitelj za nepoznato 


Taraciori de | 
očekivanje ui daje R,(t) = VLX] = —a“, tako da je 
n 


pg 
(96) Z, = i 
g 


odgovarajuća test-statistika i sa (95), odnosno (92), određeno je kritično područje 
razine značajnosti a za testiranje hipoteze Ilg : u = 19, prema odgovarajućoj 
alternativnoj hipotezi Il,. 

Usporedi li se to s rezultatima iz 5. primjera (v. (64), (65) i (66), te (a1) i 
(b,)), razabire se da je riječ o istim formulama. Razlika je u tome što formule u 5. 
primjeru vrijede za svaki n > 1, uz pretpostavku da mjerenja potječu od normalne 
razdiobe, dok (92) 1 (95) vrijede za velike n, uz pretpostavku da mjerenja potječu 
od vjerojatnosne razdiobe s konačnom varijancom 4“. 

U prethodnim razmatranjima pretpostavljeno je da je t jednodimenzionalni 
parametar, međutim slična se procedura pri konstrukciji testa može primijeniti 1 
kada je riječ o vektorskom parametru £. Uzmimo, na primjer, da je € = (1,0) 
dvodimenzionalni vektorski parametar s komponentama ti = u (očekivanje) i to = 


9 .. . . . . 3 “ . . . 
= o“ (varijanca) 1 da treba konstruirati test razine značajnosti a za testiranje 


ETE 


rr RE PG MEN EGER aa jaa aK ORTE NRRNIm 
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hipoteze Hg : u = sto, prema alternativnoj hipotezi Hy : uf po (ili u < po, ili 
H> Mo), u uvjetima nepoznate varijance a“. Očigledno je da se sada ne može uzeti 
Zn iz (96) kao test-statistika, jer se u njoj pojavljuje napoznata druga komponenta 
lo = o“. Stoga će se a2 zamijeniti nepristranim i konzistentnim procjeniteljem 2% 
čime se dobiva statistika 

(97) Vje a Poofu, 


za koju je već rečeno (v. VII.3).da za velike n približno ima standardnu normalnu 


razdiobu N(0, 1). 
Prema tome, i u ovom je slučaju kritično područje određeno formulama (92), 


' Ra a T — Plo 
odnosno (95), salmo što umijesto z,, treba staviti vrijednost Za = ma ii test- 


-statistike Ze iz (97). 

Promotre li se lipoteze o drugoj komponenti to = o“, tako da se uzme 
Hg: 02 = df, uz alternativnu hipotezu Il, : 02 # 03 (ili o? < 00, ili a“ > 4), 
iskoristit će se činjenica da je korigirana uzoračka varijanca S? nepristran i asimp- 
totski normalan procjenitelj za nepoznatu varijancu o“. Budući da je ES"]=oći 
V[S*] = Tau 
n n— 
istinitosti hipoteze II, približno vrijedi 


of (v. VI. 2.15. primjer u VII.3), za velike n, u uvjetima 


(98) M ah s M Eo s LO TA 
' n VIS?) 27 o: (n — BIG + 2n 
S“ n 
og £ + 2 
| s? n zd m 2 
loa 6 aii 25 [Ee] test-statistike Z, moci 
og £+ 


konkretno izračunati onda kada je poznata vrijednost koeficijenta spljoštenosti € 
| vrijednost, s? korigirane uzoračke varijance. 

Ako se inože pretpostaviti da je € = 0, tj. da je spljoštenost pretpostavljene 
klase vjerojatnosnih razdioba ista kao normalne razdiobe, onda (98) postaje 


(99) Žu = DE l 


Ako € nije poznato, može se u (98), umjesto €, staviti neki procjenitelj € za nepoznati 
Parametar € (uzme se, recimo, uzorački koclicijent spljoštenosti kao £). 

Zanimljivo je primijetiti da vrijednost 2, test-statistike Z, iz (98) i (99) 
upućuje na veličinu razlike između jedinice i omjera mjere rasipanja uzoračkih po- 
dataka (5%) i mjere rasipanja pretpostavljene vjerojatnosne razdiobe (a4). Prevelike 
Vrijednosti te razlike upućuju na odbacivanje hipoteze Hy : o? = Co: 
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9. primjer 


Prethodno zapažanje nameće nam ideju da se sličnim zaključivanjem konstru- 
ira test, zadane razine značajnosti a, za testiranje hipoteze Hy : of = o, prema 
alternativnoj hipotezi H, : o? # o2 (ili a? < 02), pri čemu se pretpostavlja da 
imamo niz mjerenja z1,...,Zm, koja potječu od slučajne varijable X — N(/u, 07), 
i niz mjerenja y1,...,Vn, koja potječu od slučajne varijable Y — N(pi2,02), te da 
su X 1 Y nezavisne slučajne varijable. 

Takva hipoteza najčešće se u praksi pojavljuje pri kontroli ujednačenosti (sta- 
bilnosti) određenih tehnoloških procesa. Proces se obično kontrolira u određenim 
vremienskiin razmacima, tako da se načini određeni broj mjerenja relevantne 
veličine. Ako dva takva niza mjerenja dopuštaju zaključak da potječu od teorijskih 
razdioba vjerojatnosti iste varijance, smatra se da je proces stabilan. U protivnom 
se smatra da su nastale značajne promjene u odvijanju procesa, što obično zahtijeva 
određenu tehnološku intervenciju. 

Polazeći od činjenice da su korigirane uzoračke varijance S2 i S; dobri procje- 


12 

. lil : nama 3 2 . 2 | l : , . l . d ] . . ik u TIT 
nitelji za nepoznate parametre of 1 05, odmah se namece ideja da bi statistika S2 
=y 


imogla poslužiti kao osnova za konstrukciju traženog testa. Poznato je, naime, da 


m X“(n — 1), 


s 02 


te da su U, i U» nezavisne slučajne varijable, pa se prema točki 8. u V.6. zaključuje 
da slučajna varijabla 

(n zi DU, 

= rt = 5 =: 

(m—1l)U_s S 


ima F-razdiobu sa (m — 1,n— 1) stupnjeva slobode. 
. . . +. . 3 9 9 : ž . Po. 
U uvjetima istinitosti hipoteze Ily : or = 03 govorit će se o test-statistici 


> 
(100) V=—=-F(m—1ln—1). 


S 
y 
Vrijednost test-statistike V na danim mjerenjima je 


n 


X (3 — i) 


s" —1|1 /= 

(101) đe. — MC 
s? m— Er 
: X (Mbe0)) 


i=1 


pa mala vrijednost test-statistike (bliska nuli) indicira da bi af moglo biti manje od 
Š S Fi A g ons i. asa 9 
02, dok velika vrijednost (mnogo veća od jedan) indicira da bi moglo biti af > do. 


Ako je, pak, v blisko jedinici, onda to upućuje na zaključak da je af = g3. Stoga 
će se kritično područje za testiranje hipoteze Ig : of = o2, prema alternativnoj 


. . 7 A . . . a a 
hipotezi Hy : o; 2 o, definirati uvjetima 


US €. U Ere ly Va 509) 
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pri čemu će se cy i e» odrediti iz zahtjeva da test ima razinu značajnosti a, tj. iz 
jednadžbi 


a 
(102) Pa(V < C1) = Pa(V >. C2) = 3: 


Označi li se sa F,, f.r.v. F-razdiobe sa (r, s) stupnjeva slobode, F,Z!' će označavati 
odgovarajuću inverznu funkciju, pa iz (102) odmah slijedi 


pt Mj o=F (1-5), ras=m=dl sans 1 


Prema tome, kritično područje testa, razine značajnosti a, za testiranje 
. Tr 9 . . . . 2 . 
hipoteze Hy : of = o2, prema alternativnoj hipotezi H, : o1 # dž, određeno je 
nejednakostima 


(103) wei (5). v> m7 (1-5), vemn=1lsEan=L 


it 
DERE FE TA APVE Eh ezavap 
DP see fog, 


o F2 (2) 1 2F,)(1-2)3 4 


Slika 26. Skica kritičnog područja i krivulje razdiobe test- 
-statistike V 


Za ilustraciju opisanog testa promotrimo ovaj zadatak: U proizvodnji betona 
upotrebljavaju se dva tipa mješalica A 1B. Mjerene su odgovarajuće tlačne čvrstoće 
betona 1 pritom su dobiveni ovi rezultati: 

tip A 20.3. 249. 210. 22.0. 22000 20:3. 208 228 

tip B 18.1. 20:7 16.5. 190 185. 18.2. 
Postoji li značajna razlika u varijanci tlačne čvrstoće betona za jedan i drugi tip 
mješalice? 

Ovdje je m = 8 in = 6, pa uzme li se a = 0,10, primjenom tabl. VII. u 
Dodatku, treba naći F70(0,05) i F7.(0,95). Odmah se primjećuje da u tablici 
nema odgovarajućih vrijednosti za vjerojatnost 0,05, već se nalaze samo vrijednosti 
za vjerojatnosti 0,95 1 0,99. Međutim, zbog očigledne simetrije uloga uzoračkil 
varijanci S2 i Sy u (100), odinah se zaključuje da 


1 l jo) 
(104) a = Stje) 
To nas upućuje da općenito vrijedi 


VF(ns) => >F(8r) ns€N, 
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iz čega proizlazi da za svaki € > 0 vrijedi 


odnosno 
105 F-! =. 
(105) s (0) Fara) 
' .. : 1 l 
Na temelju (105) vidi se da je F7:5 (0,05) — F71095) —_ 97 
F75 (0,95) = 4,48, pa iz (103) proizlazi da je kritično područje [0;0,25] U [4,48; 00). 


Na temelju izmjerenih podataka nalazi se da je 


= 0,25, dok je 


b= 210. gla; Eh, s Ezb8r 


pa iz (101) proizlazi da je v = 1,19, iz čega se vidi da dobivena vrijednost test- 
-statistike V ne pada u kritično područje testa, što upućuje na zaključak da ne 
postoji značajna razlika u varijancama tlačne čvrstoće betona proizvedenog na 
mješalicama tipa A i tipa B. 


8. Testovi o koeficijentu korelacije 


U V.3. opisan je teorijski imodel za opisivanje praktične situacije pri mjerenju 
dviju slučajnih varijabli X 1 X, koji se zove dvodiinenzionalna normalna razdioba 
N(Mti,#2,01,03,p), gdje parametar p (>1 < p < 1) ima značenje koeficijenta ko- 
relacije slučajnih varijabli XY 1Y. Ako je p = 0, onda su X i Y nezavisne slučajne 
varijable, pa se prirodno nameće zadaća da se na temelju n (n > 2) mjerenja 
(TZ1,V1),...,(Zn,Vn) slučajnog vektora (.X,Y') donese odluka o zavisnosti ili neza- 
visnosti slučajnih varijabli X i Y. Ta se zadaća može formulirati kao testiranje 
nul-hipoteze Hy : p = 0, prema alternativnoj hipotezi Hy :p #0. 

Odmah se nameće ideja da se ML-procjenitelj 


n 


(GX -Y) 


(106) P = 


nepoznatog parametra p (v. VI.4) iskoristi pri definiranju pripadnoga kritičnog 
područja zadane razine značajnosti a. Da bi se to moglo učiniti trebalo bi poznavati 
razdiobu vjerojatnosti procjenitelja P, uz pretpostavku da je hipoteza Hg :p=0 
istinita. Ne može se, doduše, dobiti jednostavna vjerojatnosna razdioba neposredno 
za P, ali se pokazuje (v. [19]) da statistika 


(107) ge 
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To omogućuje da se slučajna varijabla T' uzme kao test-statistika, čija će vrijednost 


(108) P=. sve 


biti odlučujuća za donošenje odluke pri testiranju hipoteze Hy. Iz zahtjeva da test 
ima razinu značajnosti a, tj. iz 


proizlazi 


gdje je (rio inverzna funkcija od f.r.v. Studentove razdiobe t(n—2) san—2 stup- 
nja slobode. 

Treba li, dakle, konstruirati test razine značajnosti a za testiranje hipoteze 
Ho : p = 0, prema alternativnoj hipotezi Il; : p £ 0, pripadno kritično područje 
određeno je uvjetom 
(109) ri > zle (1-5). 

Uređene parove iz 1. primjera u II[.1. možemo shvatiti kao mjerenja slučajnog 
vektora (X,Y), gdje .X označuje ocjenu iz matematike, a Y ocjenu iz fizike, pa 
hipotezu Hg : p = 0 možemo interpretirati kao hipotezu da nema značajne korelacije 
između ocjena iz matematike 1 fizike u određenoj učeničkoj populaciji. Mjerenja 1z 
spomenutog prinijera tretirat ćemo kao vrijednost slučajnog uzorka veličine n = 30, 
na temelju čega se dobiva vrijednost uzoračkog koeficijenta korelacije p = 0,75, tako 
da odgovarajuća vrijednost test-statistike T' iz (107) iznosi T = 6,00. Za a = 0,05 
dobiva se GZ, (0,975) = 2,05 (v. tabl. V. u Dodatku), pa se vidi da dobivena 
vrijednost test-statistike pada u kritično područje (—oo; —2,05] U [2,05 ; oo), što 
znači da treba odbaciti hipotezu Hg : p = 01 prihvatiti alternativnu hipotezu 
II, :p E 0. 

Kao što se moglo i očekivati, vrijednost p = 0,75 uzoračkog koeficijenta ko- 
relacije indicira da hipotezu o nekoreliranosti (nezavisnosti) ocjena iz matematike 1 
fizike treba odbaciti. Tako visoka vrijednost uzoračkog koeficijenta korelacije potiče 
nas, dapače, da vjerujemo u postojanje jake koreliranosti između ocjena iz mate- 
matike i fizike. Stoga se odmah nameće zadatak da se konstruira test za testiranje 
hipoteze o pretpostavljenoj vrijednosti pg koeficijenta korelacije. 

Pretpostavimo, dakle, da uz već navedene opće pretpostavke treba konstruirati 
test razine značajnosti a za testiranje hipoteze Ng: p= po (—I<po < 1), prema 
alternativnoj hipotezi Hy: p po. 

Zadatak se može vrlo jednostavno riješiti za velike n, jer će se iskoristiti 
činjenica da, u uvjetima istinitosti hipoteze Ily, slučajna varijabla 
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I 1+P 

(110) W = -ln Ea = 
2 1-P 

' ; dine : l l+po . A | 

ima asimptotski normalnu razdiobu s očekivanjeimn u = 5 In Io | varijancom 

— Po 
l 
ž.E= 


To omogućuje da se kritično područje razine značajnosti a definira 
No. 
pomocu test-statistike 


(111) jel e al TO. ora. 


zi 2 (1— PI + po) 


Iz Po(lZ| > co) = a proizlazi co = 9-!(1 — 5) tako da je pripadno kritično 


područje Cy određeno uvjetom 
(112) kl>e-(1-5), 


gdje je 
(113) že Cak ii 
2 (1—pP)(1+po) 


vrijednost test-statistike Z. 
Uzme li se kao alternativna hipoteza Hi : p > po, pripadno kritično područje 
bit će određeno nejednakošću (v. zad. 17) 


(114) z> 0 (1—a), 
a ako je Hi: p < po, pripadno kritično područje definirano je nejednakošću 
(115) z<e-(a). 


Na temelju podataka iz već spomenutog 1. primjera u III.1. mogla bi se testirati 
hipoteza Hg : p = 0,5, prema alternativnoj hipotezi Hy : p < 0,5. Test-statistika 


V30=3. (1+0,75)X(1—0,5) 


Z ima vrijednost z = 3 ln O 05) 10,5) = 2,20. Uzme li se a = 0,05, 
dobiva se $-1(0,05) = —1,65, pa se, na temelju (115), zaključuje da dobivena 


vrijednost test-statistike ne pada u kritično područje (—oo; —1,65), što znači da 
hipotezu TM, tj. slutnju da su ocjene iz matematike i fizike značajno pozitivno 
korelirane, treba prihvatiti. 
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Testiranje parametarskih hipoteza VIII. 


Zadaci 


1. 


Slučajnim uzorkom veličine n = 25 želi se provjeriti tvrdnja dobavljača da su 

pakovanja soli, deklarirana kao pet kilogramska, korektna. Pretpostavlja se, 

zapravo, da je težina jednog pakovanja slučajna varijabla X — N(pu,1)i daje 

proces pakiranja, sa stajališta kupca, korektan ako je u > 5. 

a) Formulirajte nul-hipotezu i alternativnu hipotezu. 

b) Napišite formulu i skicirajte graf odgovarajuće idealne funkcije snage 
testa. 

c) Uzmite kao kritično područje za nul-hipotezu skup C = ((zi,...,T25) € 
eR?:q< < 5), odredite pripadnu funkciju snage, skicirajte njen graf i 
nađite pripadnu razinu značajnosti testa. 

d) Za kritično područje oblika € = ((z,,...,Z25) € R? 
konstantu c tako da razina značajnosti testa iznosi a = 0,1. 
pripadnu funkciju snage i skicirajte njen graf. 


:Z < c) odredite 
Nađite 


e) Odredite VEI uzorka n : konstantu c u kritičnom području oblika 
C=((2,...,Zn) € R" : € < c) tako da za pripadnu funkciju snage K 
vrijedi X(5) = 0. li X(5 2) = — 0,9. Skicirajte graf dobivene funkcije snage. 

f) Kolika je vjerojatnost da će se, primjenom testa iz c), prihvatiti nul- 
-hipoteza kada nepoznati parametar u ima vrijednost 6, a kolika kada 
ima vrijednost 4? Kolike su spomenute vjerojatnosti u testu iz d), a 
kolike u testu iz e)? 


. Priumalac velike pošiljke istovrsnih proizvoda želi provjeriti tvrdnju proizvo- 


đača da pošiljka ne sadrži više od 10% neispravnih proizvoda. U tu svrhu 
slučajno uzima n = 10 proizvoda iz pošiljke i utvrđuje broj X neispravnih 
proizvoda među njima. Pretpostavlja se da X < B(n,p) i da je, zapravo, 
tvrdnja proizvođača p < 0,1. 


a) Opišite skup dopuštenih vrijednosti nepoznatog parametra p i formuliraj- 
te nul-hipotezu i alternativnu hipotezu. 


10 
10 
sjene 24h 
. . . . i=1 .* 
pa odredite pripadnu operativnu karakteristiku testa, skicirajte njen graf 
1 nađite razinu značajnosti, 


b) Uzmite kao kritično područjeskup C = ((zi,... 


« Postavlja se hipoteza da je godišnji broj pojava tuče (grada) na određenoj 


lokaciji slučajna varijabla A Poissonove razdiobe parametra A = 0,5. Na 
temelju podataka iz prethodnih n = 12 godina želi se testirati postavljena 
hipoteza Ig : A = 0,5, prema alternativnoj hipotezi H, : A > 0,5. 


a) Napišite formulu i skicirajte graf odgovarajuće idealne operativne karak- 
teristike. 
b) Kako glasi operativna karakteristika testa kojemu pripada kritično po- 
x 2 1 = š A 12 * 
dručdjeC = (moa Be) EMU“ 4 rneim 
c) Skicirajte graf operativne karakteristike testa iz b) i odredite pripadnu 
razinu značajnosti testa. 


d) Kolika je vjerojatnost da će se odbaciti hipoteza Hg, primjenom testa 17 


VIII. 


4, 


. varijable X > Po(A) i da jen = 


. Parametri #1 o 
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b), kada je stvarna vrijednost nepoznatog parametra A = 1, a kolika kada 
jeA =0,6. 


Pretpostavlja se da slučajna varijabla X — U(0,£) (t > 0), gdje je t nepoznati 
parametar za kojega se postavlja nul- hipoteza Ho:t= 1, prema alternativnoj 
hipotezi Hy, :t #1. Na temelju n = 4 mjerenja slučajne Varijable X dobivene 
su vrijednosti Zi, £2, £3 1 Z4. 


a) Uzmite skup C = 4(Z1,T2,23,24) € R* : |max(zi,ZT2,23,24) — u > 0,5) 
kao kritično područje fešta, odredite Sie funkciju snage i razinu 
značajnosti. 

b) Kolika je vjerojatnost da se prihvati hipoteza Hy kada je stvarna vrijed- 
nost nepoznatog parametra t = 1,2, a kolika za t = 0,87 


. Načinjena su dva mjerenja z,, z2 slučajne varijable X — Ex(a) (a > 0). 


Postavlja se nul-hipoteza Hy : a = 1, prema alternativnoj hipotezi H; :a =2, 
i definira kritično područje C = ((z,y,z2) E RŽ: zi +22 > 4). Odredite: 

a) operativnu karakteristiku, 

b) razinu značajnosti, 

c) vjerojatnost da se Hy prihvati, kada stavarno nije istinita, 

d) vjerojatnost da se Hg odbaci, kada je stvarno istinita. 


. Primjenom Neyman-Pearsonove leme nađite najbolje kritično područje za 


:A = 1, prema jednostavnoj alternativnoj 
: A = 1,5, uz pretpostavku da mjerenja potječu od slučajne 
10 ia = 0,01. Kolike su pripadne pogreške 


testiranje jednostavne hipoteze Ho 
hipotezi H, 
prve i druge vrste? 


Pretpostavlja se da slučajna varijabla AY ima beta-razdiobu s parametrom 
a = 11 nepoznatim parametrom B > 0. Dokažite da najbolje kritično po- 


dručje za testiranje jednostavne hipoteze [ly : B = 1, prema jednostavnoj 
alternativnoj hipotezi H, : 8B = 2, ima oblik 
GEM Ekoa E, VENU 0 lenta 6), 


gdje Je c > 0 određeni realni broj. 


2 normalne razdiobe N(pt,o?) tretiraju se kao komponen- 


te vektorskog parametra £ = (u,o*) sa skupom dopuštenih vrijednosti 
O = ((u,a"):u€ER, a > 0). Dokažite da je 


n n 
SENJ E RS DIED? > c 


izl i=1 


Ca (Iris 


najbolje kritično područje za testiranje jednostavne hipoteze Hy :t = t = 
= (0,1) (u=0, 07 = 1), prema jednostavnoj alternativnoj hipotezi Hy :t = 
= ti =(04) (= 0754). 


. Konstruirajte jednoliko najsnažniji test, zadane razine značajnosti a, za testi- 


ranje jednostavne hipoteze Hg : A = 0,5, prema složenoj alternativnoj hipotezi 
Hi: A > 0,5, pri čemu se pretpostavlja da mjerenja z1,...,Zn potječu od 


2 
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10. 


ll: 


12. 


13. 


14. 


16. 


17. 


18. 


19; 


Testiranje parametarskih hipoteza VIII. 


slučajne varijable X — Po(A). Uzmite zatim n = 121i a = 0,05 te usporedite 
dobiveni rezultat s onim 1z 3. primjera. 


Odredite kritično područje jednoliko najsnažnijeg testa, razine značajnosti a, 
za testiranje jednostavne hipoteze Hg : o% = og, prema složenoj alternativnoj 
hipotezi I, : 0% < oč (29 > 0 je zadani broj), pri čemu se pretpostavlja 
da mjerenja z1,...,En potječu od slučajne varijable X — N(0,g*). Uzmite 
I, : o“ 2 og kao alternativnu hipotezu i pokažite da ne postoji jednoliko 
najsnažniji test. 


Dokažite da LR-testovima (a)-(d) u VIII.6. pripadaju kritična područja (a, )- 
-(d,), pri čemu se pretpostavlja da su ispunjene pretpostavke iz 5. primjera. 


Dokažite da LR-testovima (a)-(d) u VIII.6. pripadaju kritična područja (a2)- 
-(d2), pri čemu se pretpostavlja da su ispunjene pretpostavke iz 6. primjera. 


Dokažite da se metodom primjene intervala povjerenja dobiva isto kritično 
područje kao i metodom onijera vjerodostojnosti za probleme 1z 5. 1 6. prim- 
jera. 


Mjere se dvije nezavisne slučajne varijable Y 1 Y, kojima pripadaju normalne 
razdiobe s varijancama o; i a2. Načinjeno je m mjerenja zi,..., fm slučajne 
varijable AY i mn mjerenja Yi,...,Un Slučajne varijable X. Konstruirajte test 
razine značajnosti a za testiranje hipoteze Ily : si — u2 = do (do je zadani 
realni broj), prema alternativnoj hipotezi Ily : ty — 12 £ do, uz pretpostavku: 


.. 9) . 79 
a) da su varijance gr 1 05 poznate, 


b.dajesi == 


nepoznato. 

Uputa: Primijenite rezultate zad. 7. iz VII. poglavlja i metodu intervala pov- 

jerenja. 

Odredite uvjete kojima se definira kritično područje testa razine značajnosti 
. . . . bo) 9 . . . . 

Q, pri testiranju hipoteze Hy 0 = 05, prema alternativnoj hipotezi 
f La "7 . . . 

H,y:oi < 03 (of > 03), uz pretpostavke iz 9. primjera. 

Odredite uvjete kojima se definira kritično područje testa razine značajnosti 

a, pri testiranju hipoteze Ilg : p = 0, prema alternativnoj hipotezi Hy: p<0 

(p > 0), uz primjenu test-statistike P iz (106). 

Odredite uvjete kojima se definira kritično područje testa, razine značajnosti 


Q, pri testiranju hipoteze Ho:p=po, prema alternativnoj hipotezi 
Hi :p< po (Pp > po), uz primjenu test-statistike Z iz (111). 


Primjenom rezultata iz VII.5. izvedite uvjete kojima se definira kritično po- 
dručje testa, razine značajnosti a, pri testiranju: 
a) Mh:p=po prema Hi:pžp, 

b) Ho: p=po, prema ly :p< po, 

c) M:p=po, prema Hi: p > po. 

gdje je p nepoznata vjerojatnost promatranog događaja, po (0 < po < 1) 
zadani broj, a raspolaže se sa n mjerenja slučajne varijable X > B(1, p). 


Na temelju podataka iz 3. primjera u 1.2. (tabl. 3) testirajte, uz razinu 
značajnosti a = 0,05, hipotezu da očekivani dnevni broj kvarova iznosi 10, 
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20. 


21. 


22. 


23. 


24. 


26. 


27. 


28. 


prema alternativnoj hipotezi da je veći od 10. Testirajte i hipotezu da vari- 
Janca iznosi 9, prema alternativnoj hipotezi da je različita od 9. 


Na temelju podataka iz 5. primjera u 14. testirajte, uz razinu značajnosti 
a = 0,01, hipotezu da je očekivana tlačna čvrstoća betona 30 MPa, prema 
alternativnoj hipotezi da je ona manja od 30 MPa. Testirajte i hipotezu 
da je varijanca 25 (MPa)“, prema alternativnoj hipotezi da je ona veća od 
25 (MPa)*. 

Smije li se na temelju podataka iz zad. 4. u I. poglavlju zaključiti da je 
očekivani broj dana bez oborina u mijesecu rujnu veći od 207 


Može li se u teoriji testiranja statističkih hipoteza naći oslonac za zaključak 
da podaci iz: 


a) zad. 5. u I. poglavlju potkrepljuju tvrdnju da je dnevni broj prodanih 
cipela u promatranoj prodavaonici slučajna varijabla s očekivanjem u = 
= 1001 standardnom devijacijom o = 10, 

b) zad. 6. u I. poglavlju potkrepljuju tvrdnju da je tjedni broj kvarova 
na strojevima promatranoga industrijskog pogona slučajna varijabla s 
očekivanjem u = 1,5 i varijancom g“ = 0,257 


Može li se na temelju podataka iz zad. 7. u I. poglavlju zaključiti da je 
očekivani broj telefonskih razgovora preko promatrane telefonske centrale u 
jednom satu jednak 25? 


Na temelju podataka iz zad. 8. u I. poglavlju testirajte, uz razinu značajnosti 
a = 0,05, hipotezu da promatrana čelična žica ima očekivanu čvrstoću od 


300 MPa. 


Uz pretpostavku da podaci iz zad. 13. u I. poglavlju potječu od normalne 
razdiobe, testirajte hipotezu, uz razinu značajnosti a = 0,1, da se tlačna 
čvrstoća cementnih kocki rasipa s varijancom koja nije veća od 16 (MPa)*“. 


Na temelju podataka iz 4. primjera u 1.3. (tabl. 4) testirajte, uz razinu 
značajnosti a = 0,01, hipotezu da vjerojatnost pojavljivanja slova A u teks- 
tovima hrvatskog jezika iznosi 0,15, a vjerojatnost pojavljivanja slova B 0,02. 


Može li se na temelju podataka iz zad. 2. u III. poglavlju zaključiti da nema 
značajne razlike u srednjim ocjenama iz matematike u završnom razredu sred- 
nje škole 1 na fakultetskom ispitu iz matematike? 


Uz pretpostavku da podaci u 3. primjeru u III. poglavlju potječu od dvodi- 
menzionalne normalne razdiobe, testirajte, uz razinu značajnosti a = 0,05, 
hipotezu da su X i Y nekorelirane slučajne varijable. Je li prihvatljiva 
hipoteza da su one pozitivno ili da su negativno korelirane slučajne varijable? 
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IX. Hikvadrat-test 


1. Pearsonov teorem 


Jedan od prvih testova, koji je 1900. godine predložio X. Pearson, jest čuveni 
hikvadrat-test. Matematički model na kojem se zasniva hikvadrat-test. vrlo je jed- 
nostavan. Promatra se slučajni eksperiment (slučajna pojava) s konačnim skupom 
svih mogućih ishoda A = fay,...,a,) (r > 2), tako da se načini n (n € N) neza- 


visnih ponavljanja toga eksperimenta i registrira frekvencija f;, odnosno relativna 


frekvencija pj = — f (j = 1,...,7), ishoda aj. Pretpostavlja se da ishodu a; 
n 


: 

pripada odgovarajuća vjerojatnost pj(pj > 0, 2. pj =1). Vjerojatnosti Pi,...,Pr 
jzi 

obično su nepoznate, ali priroda promatrane pojave redovito upućuje na određenu 

hipotezu o njihovim vrijednostima, pa se odmah nameće zadatak da se utvrdi u 

kojoj mjeri dobiveni podaci (opažene frekvencije, odnosno relativne frekvencije) 

potkrepljuju ili opovrgavaju postavljenu hipotezu. 


1. primjer 


Igraća kocka bačena je n = 100 puta i pritom su registrirane relativne frekven- 
cije brojeva (inogućih ishoda) iz skupa A = (1,2,3,4,5,6). Dobiveno je 


Di =. 0,22; Đ2 M0; Pa =0,22; Da = 0,20, D5 = 0,08, pe=0,12. 
Može li se, na temelju dobivenih podataka, zaključiti da je igraća kocka pravilna, ili 


pak treba zaključiti da postoje određene nepravilnosti u izradbi kocke? Egzaktnije 
postavljajući problem rekli bismo da treba testirati hipotezu 


l 
NHh:Pi=P=P3=P=Ps=Pps= E 
prema alternativnoj hipotezi 


Hi : svi ishodi nemaju istu vjerojatnost S 


pI 
Općenito problem se sastoji u tome da se konstruira test za testiranje nul-hi- 


( (0) (0) 


DiE Dia Dr pt), gdje su pj po) unaprijed zadani 


poteze Ily : 


, 

brojevi (p) ) > 0, > pj = 1), prema alternativnoj hipotezi Hi: (bar jedna od 
—= 

nepoznatih vjerojatnosti py,...,Pr različita je od odgovarajuće pretpostavljene 

vrijednosti) 
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Ako su a1,...,ap realni brojevi, onda se A može shvatiti kao skup vrijed- 
nosti diskretne slučajne varijable X,a pi,...,Pr kao pripadne vjerojatnosti, pa se 
hipoteza Ho može interpretirati kao hipoteza da diskretnoj slučajnoj varijabli X 
pripada pretpostavljena razdioba vjerojatnosti P1,..., Pr. 

Odmah primjetimo da se problem može tretirati kao zadatak o testiranju. 
parametarske hipoteze s vektorskim parametrom p = (Pi,...,Pr), Pri čemu skup 
dopuštenih vrijednosti za vektorski parametar p glasi 


(1) O=(p€eR'":p>0,)/pi=1), 
Jel 


pa se nul-hipoteza imože zapisati u obliku 
(2) H:p=p", 


a alternativna hipoteza 


(3) Hi:p? po. 

Ideja vodilja pri konstrukciji testa, zadane razine značajnosti a, ista je kao 1 u 
VIII.7. To znači da treba poći od dobrog procjenitelja P za nepoznati parametar p 1 
zatim definirati prikladnu test-statistiku, označimo je sa D, koja će indicirati razliku 
između vrijednosti p procjenitelja Pi pretpostavljene vrijednosti p(%. Dobije li se 
prevelika vrijednost d test-statistike D, hipoteza Hy će se odbaciti. Da bi se odredilo 
pripadno kritično područje, uza zadanu razinu značajnosti a, nužno je poznavati 
vjerojatnosnu razdiobu test-statistike D, pri pretpostavci da je hipoteza Hy stvarno 
istinita. Nastoji se, dakako, naći ona test-statistika koja će imati što jednostavniju 
razdiobu vjerojatnosti. Iduće razmatranje dovodi nas do takve test-statistike. 


' ' KB o l < 
Uoči li se ishod aj € A, pripadna relativna frekvencija pj = — f; može se tre- 
n 
tirati kao vrijednost statistike P; = — F; (uzoračka relativna frekvencija), za koju 
n 


se zna daje ML-procjenitelj nepoznatog parametra pj. Ako je hipoteza Ily stvarno 
istinita, može se očekivati da ponderirana suma kvadrata odstupanja 


(4) d = pa Alpi po) 


neće biti velika. Dobije li se d > cg, hipoteza Hy će se odbaciti, pri čemu je konstanta 
Ca > 0 određena tako da test ima razinu značajnosti a, tj. da vrijedi 


(5) Po(D > Co) za, 

gdje je 

(6) D=) ie vi 
i=1 


Oznaka Po u (5) označuje vjerojatnost navedenog događaja uz pretpostavku da je 
istinita hipoteza Ha: p=p. 
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Da bi se odredila vjerojatnosna razdioba test-statistike D iz (6), rezonira se 
ovako: Pj; je nepristran, konzistentan i asimptotski normalan procjenitelj za nepoz- 
nati parametar pj, pa ako je istinita hipoteza Ho, onda je pj = pi i slučajna 

D (0) 
Pi — Dj 
0 0 
pipi) 
normalnu razdiobu N(0,1). Uzme li se A; = 


varijabla Z; = vn, za velike n (n —> 00), približno ima standardnu 


n 


(0) (0)\" 

r Dj (1 — bj ) 

(6) može pisati kao D = X" 2, što pokazuje da je slučajna varijabla D izražena 
i=l1 

kao zbroj kvadrata standardnih normalnih slučajnih varijabli. One, nažalost, nisu 


Pos 


i nezavisne, jer između slučajnih varijabli P,,..., P, postoji linearna zavisnost 


odmah se vidi da se 


L 
oat , : Z : ea ie 2 : 
izražena jednadžbom / Pj = 1, što onemogućuje zaključak da D — X“(r), što 


i=1 
bi inače proizašlo iz rezultata navedenog u točki 5. u V.6. Može se, međutim, 
dokazati (v. [38]) da vrijedi tzv. Pearsonov teorem: 


U uvjetima istinitosti hipoteze Ho : p = pl"), za velike n, test-statistika 


(7) 


gdjeje g = np), približno ima hikvadrat-razdiobu sa r—1 stupnjeva slobode. 


Prema tome, da bi se odredilo kritično područje razine značajnosti a za testi- 
ranje nul-hipoteze (2), prema alternativnoj hipotezi (3), jednadžba (5) će se pomoću 
f.r.v. H,_, hikvadrat-razdiobe X? (r — 1) zapisati 
I=Fol)< Gjel=M. (66) =a 


) 


iz čega odmah slijedi 


(8) o = HZ (1-o), 
tako da je traženo kritično područje opisano uvjetom 
ro (f. (0)\2 
(fj; > ) zd 
(9) d=) o ž>NnGd-a), 
jal 1; 
gdje je f; izmjerena (opažena) frekvencija, a a = np)" očekivana (teorijska) 


frekvencija ishoda a; u nizu od n nezavisnih ponavljanja danoga slučajnog ekspe- 
rimenta. 


Za podatke iz 1. primjera, gdje je r = 6 i ia = 100.- a 16,67 (ij = 
= 1,2,3,4,5,6) dobiva se d = 10,91. Uzme li se a = 0,05, primjenom tabl. VI. 
u Dodatku, nalazi se da je Hs'(0,95) = 11,1, pa se vidi da dobivena vrijednost 


test-statistike ne pada u kritično područje [11,1 : 00). To znači da hipotezu Hy 


treba prihvatiti, odnosno da opaženi podaci ne upućuju na bitne nepravilnosti u 
ponašanju igraće kocke. 
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2. Fisherov teorem 


Jedna od najvažnijih primjena hikvadrat-testa jest provjera hipoteze o tipu 
vjerojatnosne razdiobe. Da bi se lakše i bolje shvatila primjena hikvadrat-testa pri. 
testiranju hipoteze o tipu vjerojatnosne razdiobe iz koje potječu izmjereni podaci, 
razinotrit će se najprije jedan ilustrativan primjer. 


2. primjer 


U 3. primjeru iz 1.2. navedena je tablica frekvencija (tabl. 3) kvarova na 
strojevima određenoga industrijskog pogona. Pojednostavnjeno, ta tablica izgleda 
ovako: | 


Tablica 1. 


Dnevni broj | Sit | € |; 9 [rolu a2 aa [a4 [a5 [160i 

kvarova (1) | manje više 

Vo 
i 


Postavlja se pitanje može li se smatrati da navedeni podaci potječu od 
slučajne varijable X (dnevni broj kvarova) kojoj pripada Poissonova razdioba 
Po(A), pri čemu je parametar A zasada još neodređen. Kada bi A bio poznat, 
onda bi vrijednosti j € (0,1,2,...) pripadala, u Poissonovoj razdiobi, vjerojatnost 

j . . . . .. . 
pj(A) = a exp(—A). Tada bi i veličina d, koja pokazuje razliku između empirijskih 
JI 


(opaženih) frekvencija f; 1 teorijskih (očekivanih) frekvencija 


AJ 
BojenpQjEmn: i exp(—A) 


ovisila o A, tako da ćemo pisati 


SPASA; : = i1>fljlA 2 
“a 10) = 95 mom 5 = GO. 


Da bi se našla ona Poissonova razdioba Po(A) koja je najbolje prilagođena opaže- 
nim frekvencijama fj, čini se razumnim odrediti parametar A tako da d(A) bude 


minimalno, tj. naći takvo A da vrijedi 


NI — d(Q). 
(11) maa) d(A) 


Deriviranjem jednadžbe (10) po A i sređivanjem dobiva se 


(12) Moje 7 
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Da bi se riješila jednadžba d'(A) = 0, po A, uzet će se u obzir da, za velike n i 
A &2A, približno vrijedi np; (A) & fj, pa se dobiva 


iz čega proizlazi da je 
x. dk. s 
(13) SAS = 1 


Vidi se da je A, zapravo, aritmetička sredina izmjerenih podataka pa se može reći 
da je Poissonova razdioba s parametrom A =A=z nabolje prilagođena opaženim 
(izmjerenim) frekvencijama f;. Primijetimo da je Fi vrijednost ML-procjenitelja 
za nepoznati parametar Poissonove razdiobe (v. 5. primjer u VI.4). 

Na temelju danih podataka može se izračunati (ne baš posve precizno, jer su 
u navedenoj tablici grupirani podaci zaj <5i1j > 16) 


2.1 
F=A= 507 (8:114+6:134#...+15:7+ 16:7) =9,89 2 10. 


Primjenom Poissonove razdiobe Po(10) izračunajmo teorijske vjerojatnosti 


P5(10) = po(10) + p1(10) + p2(10) + p3(10) + pa(10) + ps(10) = 0,067 
Pe(10) = ps(10) = 0,063 

P15(10) = pis(10) = 0,034 

Pi6(10) = pis(10) + pi7(10) + +++ = 0,049, 


kojima odgovaraju teorijske frekvencije 


f5(10) = 200 + 0,067 = 13,4 
f4(10) = 200 0,063 = 12,6 


f15(10) = 200. 0,034 = 6,8 
f1e(10) = 200 + 0,049 = 9,8. 


To omogućuje da se izračuna 


J 


(14) d(A) = d(10) = X" o“ 9,57, 


A [f; - f;(10)P 
Ee 1500 


s 


Pi 


što na određeni način upućuje na globalnu razliku između empirijskih i teorijskih 
frekvencija u promatranom primjeru, pa se odmah postavlja pitanje da li je ta raz- 
lika dovoljno velika da se odbaci hipoteza da podaci potječu od Poissonove razdiobe 


IX .2 Fisherov teorem 241 


Po(10). Odgovor na postavljeno pitanje dobit ćemo onda, kada uspijemo utvrditi 


Pas 


da je d(A) vrijednost određene test-statistike s poznatom razdiobom vjerojatnosti. 

Najprije prumijetimo da teorijske frekvencije LO) = JII ED; sa; 18) 
ovise o vrijednosti A = 10 ML-procjenitelja A za nepoznati parametar A Poissonove 
razdiobe, pa se stoga f;() treba shvatiti kao vrijednost statistike f;(A). Stoga se 


Pas 


i d(A) treba shvatiti kao vrijednost slučajne varijable 
16 m 4\12 
2 oo 
(15) D(A) = ND = 100 ' 


Prema tome, ako se veličina d(A) iz (14) želi iskoristiti kao kriterij za donošenje 
odluke pri testiranju hipoteze Hy da zadani podaci potječu od Poissonove razdiobe, 
uz dani rizik a da će se odbaciti istinita hipoteza, nužno je poznavati razdiobu 


vjerojatnosti slučajne varijable D(A). U promatranom je primjeru r = 12, pa bi 
se na temelju ranijih razmatranja moglo pomisliti da za velike n približno vrijedi 
D(A) = X*(r— 1). Međutim, usporedbom formula (7) i (15), odmah se vidi da je 
D(A) ipak različita slučajna varijabla od D, pa nema čvrstih razloga za vjerovanje 
da imaju jednake vjerojatnosne razdiobe. Dokazuje se (v. [6]), dapače, da vrijedi 
tzv. Fisherov teorem: 


Neka vjerojatnosti mogućih ishoda aj € A(j=1,...,r) ovise o parametru (može 
r 


biti i vektorski) t € 0, tj. pj =pj(f) >0 (X plt) = 1 ve 0), neka se, 
j=1 


pri n nezavisnih ponavljanja toga slučajnog eksperimenta, dobije frekvencija fj; 
ishoda aj. Neka je, nadalje, T određeni procjenitelj za nepoznati parametar t, 
čija se vrijednost t određuje uvjetom 


(16) 


Pa 


d(Č) + min d(t) 


teo 


gdje je 


jal 


Tada, za velike n, slučajnoj varijabli: 


> om SB-a 


gdje je Fj; statistika s vrijednostima f; (uzoračka frekvencija), pripada hik vad- 
rat-razdioba sa r — v — 1 stupnjeva slobode, pri čemu v označuje dimenziju 
parametra £. 


_______—_—_o___——oo. boo EE zoja VŠ bao) E E ne aka A 


AKG E E STA op 
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Procjenitelj ik dobiven na upravo opisani način, zove se minimalni hikvadratni 
Procjenilelj, koji se u nekim slučajevima podudara sa ML-procjeniteljem. 

Fisherov teorem općenito omogućuje da se konstruira test zadane razine 
značajnosti a, za testiranje hipoteze Hg: (podaci potječu od diskretne vjerojat- 
nosne razdiobe ovisne o parametru t), prema alternativnoj hipotezi H,: (podaci ne 
potječu od pretpostavljene vjerojatnosne razdiobe). Iz činjenice da test-statistika 
D(T) da X*(r —v— 1), odmah proizlazi da je pripadno kritično područje određeno 
uvJetom 


(18) dd)> 4#7,_,U-a). 

U promatranom smo primjeru postavili hipotezu Hg da podaci potječu od 
Poissonove razdiobe, u kojoj postoji jednodimenzionalni parametar t = A(A > 0), 
lakodajev=1i stoga test-statistici D(A) iz (15) pripada hikvadrat-razdioba sa 
"-v-1=12—1—1 = 10 stupnjeva slobode. Za a = 0,05, kritično područje 
određeno je uvjetom d(A) > Hr) (0,95) = 18,3 (v. tabl. VI. u Dodatku). Iz (14) se 
vidi da su podaci dali test-statistici vrijednost 9,57, što ne pada u kritično područje 
18,8 ; 00), a to znači da hipotezu II treba prihvatiti. 


3. Hipoteze o tipu vjerojatnosne razdiobe 


. U IX.2. je već prikazano kako se konstruira test za testiranje hipoteze o bilo 
kojoj diskretnoj razdiobi vjerojatnosti. Teorijska iznova za to nalazi se u navedenom 
Fisherovu teoreinu. Odmah se postavlja pitanje da li se Fisherov teorem može pri- 
Inijeniti i pri konstrukciji testova o kontinuiranim razdiobama vjerojatnosti. Kako 
Se to radi ilustrirat će se idućim primjeroni. 


3. primjer 


. Promatranjem statističkih podataka o tlačnoj čvrstoći betonskih kocki iz 5. 
Primjera u 1.4, te pripadnih tablica (tabl. 5. i 7. u I. pogl.) i grafikona (Sl:-6, 9, 
10, 11. u]. pogl.) može se pomisliti da izmjereni podaci možda potječu od neke 
normalne razdiobe N(uu,a?). Stoga se odinah postavlja pitanje kako konstruirati 
test za testiranje hipoteze Hy: (podaci potječu od normalne razdiobe), prema al- 


ternativnoj hipotezi H,: (podaci ne polječu od normalne razdiobe). Budući da su 


Podaci u tabl. 5. u I. poglavlju grupirani u 20 razreda, nameće se ideja da se za 
donošenje odluke iskoristi Fisherov teorem tako da se uzme n = 100; 7 =="20,2a.f; 


irekvencija J-tog razreda, a za p;( 


t) vjerojatnost j-tog razreda izračunana po nor- 
malnoj razdiobi N(ft,0*), gdje je t = (/4,60%) vrijednost minimalnog hikvadratnog 


Procjenitelja T za vektorski parametar t = (u, 0"), koji se u ovom slučaju približno 
podudara s M L-procjeniteljem T = (X, 2) (v. VI.4). 

Međutim, iz Pearsonova teorema je očigledno da se primjena hikvadrat-testa 
temelji na pretpostavci da je n dovoljno veliko da se, za svaki j, smije binomna 
razdioba B(n, Dj) uzoračke frekvencije FP, aproksimirati odgovarajućom normalnom 


i 
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pa venn? RBpP o goči dao bi i A i 


razdiobom, a to je dopušteno samo za one Pj koji nisu preblizu nuli i jedinici, tj. 


ako očekivana (teorijska) frekvencija npj = je nije premalena, a ni preblizu n. 

Smatra se da je za primjenu hikvadrat-testa nužno da svaki razred ima 
očekivanu (teorijsku) frekvenciju bar 5 ili više. Odmah se vidi da grupiranje po- 
dataka u razrede primijenjeno u tabl. 5. u I. poglavlju nije prikladno za primjenu 
hikvadrat-testa. Uzme li se, naime, = F = 3510 =21, što su približne vrijed- 
nosti ML-procjenitelja T = (X, »2) u promatranom primjeru, mogu se izračunati 
vjerojatnosti razreda u tabl. 5. u 1.4. prema normalnoj razdiobi N(35,21). Koristeći 
se formulom (49) iz IV.5. dobiva se 


m) = nt) =0(87£)_a(4=:=P) ). JEL 20: 


o 


gdje Je aj gornja granica, a a;_, donja granica j-tog razreda. Pripadne teorijske 


frekvencije ia u konkretnom slučaju kada je n = 200, = 85 i = Vvi2l, 
izražene su formulom 


ONE. M m dj — 35) — u) 
(19) 9 = np;(8) = 100 (EP JE 


Izvedu li se konkretni proračuni po formuli (19) s veličinama iz tabl. 5. u 1.4, odmah 
se vidi da teorijske frekvencije za više razreda ne zadovoljavaju uvjet da su veće od 
4. Tako je, na primjer, g s 1,28, g s 2,13 itd. Zato nije moguće primijeniti 
hikvadrat-test na statističke podatke 5. primjera u 1.4, grupirane u tabl. 5. 

No, isti se podaci mogu grupirati u razrede i na druge načine, o čemu je već 
bilo govora u I. poglavlju. Tako su u tabl. 7. u 1.6. isti podaci grupirani u r = 
= 10 razreda. Odmah se vidi da ni ta podjela na razrede ne zadovoljava uvjet da 
očekivana teorijska frekvencija svakog razreda bude 5 ili više. Stoga ćemo načiniti 
novu podjelu istih podataka na razrede, koja će zadovoljavati navedeni uvjet, a 
prikazana je u tabl. 2. Statistički podaci o tlačnoj čvrstoći betonskih kocki pri- 
ređeni su u tabl. 2. tako da se može primijeniti hikvadrat-test za testiranje hi- 
poteze Hg: (podaci potječu od normalne razdiobe), prema alternativnoj hipotezi 


Tablica 2. 


broj : - Teorijska Empirijska 
razreda donja SATNJA | frekvencija | frekvencija 
(1) granica granica F9 f 
(4j—_1) (aj) ( J ) ( Po) 


i 


| 
li 
li 
ll 
i 
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H,: (podaci ne potječu od normalne razdiobe). Može se, naime, smatrati da su 
zadovoljeni uvjeti Fisherova teorema, pričemujen =100,r=7,dokjet = (u, 07) 
dvodimenzionalni vektorski parametar, tako da je v = 2, što sve zajedno povlači 
da test-statistika D(T') = X2(4). m 

Uzme li se a = 0,05, kritično područje definirano je uvjetom d(t) > 
za H7'(0,95) = 9,49, pa se odmah vidi da dobivena vrijednost 2,024 test-statistike 
ne pada u kritično područje [9,49 ; oo), što znači da ne treba odbaciti hipotezu O 
normalnoj razdiobi slučajne varijable X (tlačna čvrstoća betonskih kocki). m. 

Opći postupak za primjenu hikvadrat-testa na testiranje hipoteze Hy da izmje- 
reni podaci z1,...,x, potječu od zadane klase P = (P, : t € 0) vjerojatnosnih 
razdioba izgleda ovako: 


Na temelju danih podataka određuje se ininimalna hikvadratna procjena t 
parametra t (obično se zamjenjuje ML-procjenom). 

Brojevna os (skup R) razbija se na disjunktne intervale (razrede) 

ll, (vr € N) tako, da je očekivana (teorijska) frekvencija od = 
=SbEA LJ Aj E djes): a | , 
Određuju se empirijske frekvencije f; (broj onih podataka danog niza koji 
padaju u razred 1;). Ako neki od podataka padne baš na granicu dvaju 
razreda, onda se u svakom od njih uzima 0,5 kao doprinos empirijskoj frek ven- 
CIJi razreda. 

Izračunava se vrijednost test-statistike 


Fo F0 
d(t) = 59 (U —- 4; ) 


(0) 
jar dj 


Izabire se razina značajnosti a i određuje uvjet za kritično područje 


di) > Hill — a), 


gdje je v dimenzija parametra t. 


Istaknimo odmah neka dobra i neka loša svojstva hikvadrat-testa pri odlučiva- 
Nju o tipu vjerojatnosne razdiobe od koje potječu dani podaci. 

Dobro mu je svojstvo, svakako, da se može primijeniti i na diskretne i na kon- 
tinuirane razdiobe vjerojatnosti, iako je strogo teorijski utemeljen sarno za diskretne 
razdiobe. 

Fisherovim teoremom utvrđen je utjecaj procjene nepoznatog parametra na 
razdiobu test-statistike, što nije poznato kod nekih drugih testova. . 

Primjena hikvadrat-testa na kontinuirane razdiobe vjerojatnosti zahtijeva 
Srupiranje podataka u razrede (može se primijeniti i kod diskretnih), što je done: 
kle proizvoljan postupak, koji nema strogo tcorijsko opravdanje. U tom je slučaju 
problematičan i utjecaj procjene t nepoznatog parametra t na razdiobu vjerojat. 
nosti test-statistike DT). Računa li se, naime, procjena £ bez primjene grupiranja 
podataka u razrede (v. (5) i (6) u IL.1), preporučuje se (v. [4]) da se ne smanju- 


Je broj stupnjeva slobode hikvadrat-razdiobe za dimenziju u (broj komponenata) 


Ke 
+ 


E 22 
Vektorskog parametra t, već da se uzima D(T) s AX(r— 1). 


| 
| 


po m dm a m a dn a i nn nn dna son 


a AZ da rai o NOŽEM Li a ša LA a a on av ao či tanja, ta tač td dd S an ta i Šš čija čka 


i 
i 
] 
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Što se tiče izbora broja razreda ri sa stajališta Fisherova teorema, bolje je imati 
malo razreda s velikim frekvencijama razreda, jer tada hikvadrat-razdioba dobro 
aproksimira razdiobu vjerojatnosti test-statistike D(T'). Međutim, ako se velik broj 
podataka (n veliko) grupira u mali broj razreda (r maleno), onda se očigledno gubi 
znatan dio informacije sadržane u danom nizu podataka. 

Kada bismo, na primjer, uzeli samo dva razreda 1, = (—00,0] i 2 = 
= (0,00) (r = 2) i postavili nul-hipotezu da podaci potječu od uniformne razdiobe 


tot i . : : 
U( —5,5 ](t>0), imali bismo pripadne vjerojatnosti razreda P(l) = P(I2) = 


' zi m n . 
za odnosno pripadne teorijske frekvencije 9 = (9) = =. No iste bismo 


teorijske frekvencije dobili i kada bismo postavili nul-hipotezu da podaci potječu 
od normalne razdiobe N(0, g?) (a > 0) To znači da se u oba slučaja odluka donosi 
na temelju iste vrijednosti test-statistike i uz isto kritično područje, pa će se na 
temelju danih podataka i jedna i druga nul-hipoteza prihvaćati, odnosno odbaci- 
vati. Kaže se da tako konstruirani test ima slabu razlučivost, jer i s vrlo velikim 
brojem n podataka ne razlučuje uniformnu razdiobu od normalne. 


4. Razlučivost hikvadrat-testa 


Navede li nas hikvadrat-test da odbacimo hipotezu o pretpostavljenoj raz- 
diobi vjerojatnosti, možemo biti prilično sigurni da izmjereni podaci ne Potječu 
od pretpostavljene vjerojatnosne razdiobe. Navede li nas, međutim, da prihvatimo 
hipotezu, i ako još uzorak nije jako velik, onda ne smijemo smatrati da su druge 
razdiobe vjerojatnosti isključene. 

Cesto se, naime, događa da se uz iste podatke, primjenom hikvadrat-testa, 
može dobiti zaključak o prihvaćanju više različitih vjerojatnosnih razdioba. 

Stoga je prirodno da se postavi pitanje koliko se trebaju razlikovati dvije 
Vjerojatnosne razdiobe da bi ih hikvadrat-test, uz danu veličinu uzorka n i razi- 
nu značajnosti a, mogao razlučiti. No time je odmah postavljeno i pitanje kako 
"mjeriti? razliku između vjerojatnosnih razdioba. Općenito je to vrlo složeno pi- 
tanje, međutim za posebni slučaj koji nas ovdje zanima zadatak se može riješiti 
nešto jednostavnije. 

Ideja vodilja nazire se iz formule (4), gdje se veličina d može interpretirati kao 


X . . A a ž 3 0) 0 
mjera razlike (udaljenost, distanca) između teorijske razdiobe p(% — (pl ) kise i )) 
i empirijske razdiobe» = (Pi,...,Pr). Zato se općenito čini razumnim veličinu 


r (0)\2 
(prep) 
0 _ J 
(20) Ap" p)=2>——a— 
jal Dj 


nazvati razdaljinom diskretne vjerojatnosne razdiobe pl", koja zadovoljava 


uvjet po SU UPES Eas go) 200 bilo koje diskretne vjerojatnosne razdiobe 


DP g 20. Z me> 1): 


gal 
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Primijetimo da u (20) nije ispunjen uvjet simetrije A(p%,p) = A(p, p )), pa 
.,. . . . A . . , ' 0 
se ne može govoriti o međusobnoj udaljenosti vjerojatnosnih razdioba pipY. 
Primijeni li se hikvadrat-test na testiranje hipoteze da dani niz od n podataka 
potječe od vjerojatnosne razdiobe Pp) uz razinu značajnosti a, može se promatrati 
skup R(a,n) svih onih vjerojatnosnih razdioba p koje će se tim testom odbaciti. 
Veličina 


(21) Ag= min A(p(,p) 
peR(a,n) 
zove se minimalna razlučiva razdaljina razine Zo u a. Ona ima značenje 
minimalne razdaljine neke razdiobe p, od radiobe pl, koja se hikvadrat-testom 
razine značajnosti a i uz veličinu uzorka n može razlučiti od razdiobe Pp. 
Postoji (v. zad. 10) jednostavna približna formula koja vrijedi za dovoljno 
velike n i koja glasi 


(22) hE nvr-. 
gdje Je yr praktički neovisno o r i ovisi samo o a, tako da je za 56 < r < 400 
a=0,1,y 26,azaa=0,05,y, 28. Iz (22) se vidi da Ay ne ovisi o polaznoj 
vjerojatnosnoj razdiobi p(9%. 

Ako je, na primjer, r = 10,n = 100 ia = 0,05, onda se dobiva Ag = 0,24, 
što znači da se sve one razdiobe p, koje su od polazne razdiobe p(% udaljene za 
manje od 0,24, prihvaćaju primjenom hikvadrat-testa s danim n i a, jednako kao 
i razdioba p(Y. Vo riječima, ako je stvarna razdioba od koje potječu podaci 
PEP, ali je A(p ) p) < Ag, onda će se nul-hipoteza ipak prihvaćati s vjero- 
Jatnošću | — a, odnosno odbacivati s vjerojatnošću a, dakle isto kao da je stvarna 
razdioba p(9). 

Može se reći da veličina Ag karakterizira, na određeni način, moć razlučivanja 
hikvadrat-testa. Ako je Ag maleno, razumno je reći da je moć razlučivanja velika, 
pa se stoga veličina 


1 | 
(23) še -— 


7 Ao u ey l 
zove razlučivost hikvadrat-testa. 


Odmah se vidi da se razlučivost povećava s povećanjem veličine uzorka n, što 
je intuitivno vrlo prihvatljivo. Međutim, formula (23) pokazuje da se razlučivost 
smanjuje pri povećanju broja r razreda u koje su grupirani zadani podaci. 

Opisani postupak može se primijeniti i za određivanje razlučivosti hikvadrat- 
-testa kad se on primjenjuje na kontinuirane razdiobe vjerojatnosti. “To će se ilus- 
trirati idućim primjerom. | 


4. primjer 


Da bi se odredila razdaljina između standardne normalne razdiobe N(0, 1) 
1 uniformne razdiobe s očekivanjem (0 i varijancom 1, tj. uniformne razdiobe 
U(>V//3,v3), brojevna os, odnosno skup R, razbit će se na r = 10 intervala 
(razreda) i zatim izračunati vjerojatnost svakog razreda po standardnoj normal- 
noj i uniformnoj razdiobi U(>/38, V3), što je prikazano u tabl. 3. 


| 
| 
| 
| 
| 
i 
| 
| 
| 
| 
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Primjenom formule (20) nalazi se da je A(p(Y,p) = 0,1542, što se može in- 


terpretirati tako da se kaže da je razdaljina uniformne razdiobe U(—V3, v3) od 
normalne razdiobe N(0, 1) na razini danih r = 10 razreda, jednaka 0,1542. 
Treba li naći minimalnu veličinu uzorka n, uz koju se s razinom značajnosti a = 


0,05 može razlučiti normalna razdioba N(0, 1) od uniformne razdiobe U(—V/3, v3), 


najprije će se, na temelju (22), zaključiti da je u tom slučaju minimalna razlučiva 
6 


razdaljina Ag = —, te stoga treba n odrediti tako da bude zadovoljen uvjet 
n 


€ 


24 
0,1542 > zu > n> 199. 
1 


To nam pokazuje da se i s vrlo velikim uzorkom (recimo n = 150), primjenom 
hikvadrat-testa uz razinu značajnosti od 5 %, prihvaća normalna razdioba, iako je 
možda stvarna razdioba uniformna. 


Tablica 3. 


donja gornja 
granica | granica 
— 00 —2 


Redni 
broj 
razreda 


N(0,1) 
pi 


0,068 
0,144 
0,144 
0,144 
0,144 
0,144 
0,144 
0,068 
0 


O A-1 ODA oto = 


-_ 
E 


Još se teže razlučuje normalna razdioba od Laplaceove razdiobe (v. točku 6. u 
V.6). Kada bi se izvelo slično računanje za N(0,1) i Laplaceovu razdiobu parametra 
V2, koja ima očekivanje 0 i varijancu 1, našlo bi se da je nužno imati uzorak veličine 
n > 450 da bi se razlučile te dvije vjerojatnosne razdiobe uz razinu značajnosti 
a = 0,05. 

Za razlučivanje N(0,1) i Cauchyjeve razdiobe (v. točku 7. u V.6), na istoj razini 
značajnosti a = 0,05, nužno je raspolagati uzorkom veličine n > 133. 

Na prvi pogled može izgledati neobično da se teže razlučuje normalna raz- 
dioba od uniformne nego od Cauchyjeve razdiobe, čija je krivulja razdiobe mnogo 
sličnija normalnoj krivulji nego krivulja uniformne razdiobe (usp. sl. 9. i 12 u IV.3). 
Uzrok tome je u činjenici da se normalna i (/auchyjeva razdioba jako razlikuju u 
*repnim* dijelovima (razredima kojima pripada mala vjerojatnost), a što mnogo 
pridonosi vrijednosti A(p(%,p), što se razabire iz (20). Općenita je konstantacija 
da je hikvadrat-test vrlo osjetljiv na ?repno? ponašanje razdioba. 

Na temelju provedenih razmatranja može se zaključiti da, primjenom hikvadrat- 
-testa na uzorcima veličine n < 100, hipoteza o normalnoj razdiobi neće biti 
odbačena i ako se stvarna razdioba od koje potječu uzorački podaci razlikuje od 


4 


TESS TU TETE 


id 
| 
| 
N: 
E 
bs 
li 
] 

1 

i 
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normalne razdiobe. Čak se i s uzorkom veličine n = 400 ne može razlučiti normalna 
razdioba od slične joj simetrične razdiobe, poput Laplaceove razdiobe, čiji se repovi 
također eksponencijalno približuju nuli. 

Sve to upozorava da je potreban znatan oprez pri donošenju zaključaka o raz- 
diobi vjerojatnosti uz primjenu hikvadrat-testa, posebno u uvjetima relativno male 
veličine uzorka. 


5. Hipoteza o nezavisnosti 


U vezi s dvodimenzionalnim razdiobama vjerojatnosti definiran je pojam sto- 
hastičke nezavisnosti slučajnih varijabli XY 1 Y (v. V.1), pa se prirodno nameće 
zadatak da se konstruira test za testiranje hipoteze Hg da su X i Y nezavisne 
slučajne varijable. Polazi se od toga da se, na temelju niza od n mjerenja (uređenih 
parova) (£1,91),.--,(Zn,Vn) slučajnog vektora (AX,Y), može oblikovati pripadna 
kontingencijska tablica (v. III.1. i 111.7), gdje je za vrijednosti slučajne varijable X 
predviđeno r, a za vrijednosti slučajne varijable XY predviđeno je s razreda. Ako 
je z; palo u j-ti razred varijable .X, a y; u k-ti razred varijable Y, onda se kaže 
da je uređeni par (z;,y) (D2=1,...,n) pao u polje (4,k) kontingencijske aa 


(ih =1...,nk=1,...,5). Sa f;jk označit će se frekvencija, a sa Pjk = — fjk 
n 


relativna frekvencija polja (j,k) u danom nizu podataka (21,91),...,(Zn,Un). 
Očigledno vrijedi 


(24) >. fa=an, NA, Dbk 


3=lk=1 jslik=1 


Ako pje (Pjk > 0, S ho Pjk = 1) označuje teorijsku vjerojatnost koja pripa- 
jE 
da polju (j,k) ibedone tablice na temelju vjerojatnosne razdiobe slučajnog 
vektora (X, Y), tada se može govoriti i o teorijskoj (očekivanoj) frekvenciji polja 
(1, k) pri n-strukom ponavljanju nezavisnih mjerenja slučajnog vektora (.X,Y) 


imo: — 


jslilk=1 


(25) fjk N. NP;k ; 


Statistika F, ku čije su vrijednosti fj. nepristrani je procjenitelj za nepoznati para- 
metar fj. Ako) je n dovoljno veliko, tako dasui fja(j=1,...,rk=1,...,s) do- 


voljno veliki za primjenu svojstva asimptotske aa E Fa, može 
se primijeniti Pearsonov teorem (v. (7)), tj. može se zaključiti da slučajna varijabla 


(26) pa So Ca) -X(rs—1). 


jati 


To pokazuje da se hikvadrat-test može primijeniti 1 na dvodimenzionalni slučaj 


| 
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testiranja hipoteze Hy : Pjk = pu BI alternativnoj hipotezi H; : pjx F pio za 
bar jedan uređeni par (j,k)(j=1,...,r,k=1,...,s). Očigledna je i mogućnost 
generalizacije hikvadrat-testa na dod ep 2ičnalni slučaj, u što se nećemo upuštati. 

Pretpostavi li se da vjerojatnosti pPjx, a zbog (25) 1 teorijske frekvencije fj;x, 
ovise o nepoznatom parametru t(t € 8) pripadne dvodimenzionalne vjerojatnosne 
razdiobe Fey, slučajna će varijabla 


[Fiju — fja(t)]? 
(27) D(t) = 233 Saone 


upućivati na globalnu razliku akei eng ljeti i teorijskih frekvencija. Budući 
da je t nepoznato, u (27) će se umijesto t staviti pripadni minimalni hikvadratni 


procjenitelj Ti tada, prema Fisherovu teoremu, vrijedi 
(28) D(T) = X“ (rs —v—l), 


gdje je kao 1 obično, v dimenzija vektorskog parametra t. U tome je teorijska 
osnova za primjenu hikgadrat testa pri testiranju hipoteza o tipu višedimenzionalne 
razdiobe vjerojatnosti. 

Vratimo se, međutim, problemu kesiiranja hipoteze o nezavisnosti slučajnih 
varijabli X 1 Y. Ako je Hipoteza o nezavisnosti istinita, onda vrijedi (v. (10) u V_.2) 


(29) Die Pidn: SE mea 77 u mane 
gdje je 
S r r Ki 
(30) pre Vi ms pie pa) ge=1 
k=1 1=1 jal k=1 


Definirajimo veličine fj = npj 1 gk = N4k, pa se odmah vidi da se f; može interpre- 
tirati kao teorijska frekvencija j-tog razreda prve varijable (X), a gx kao teorijska 
frekvencija k-tog razreda druge varijable (Y). 

Stavi li se 


(31) PSV u Mel 
kEl j—1 


vidi se da je fj empirijska frekvencija j-tog razreda iksova, a gx empirijska frekven- 
cija k-tog razreda ipsilona, na danom nizu empirijskih podataka. Očigledno vrijedi 


r S 
(32) PRE DDITILJ 
j=1 k=1 
Sada se može reći da se zadatak sastoji u testiranju hipoteze 
Ho : (Pjk E Dj dk, peldbanstu REL, 5) 


prema alternativnoj hipotezi I, : (postoji bar jedan uređeni par (1,k) za koji je 
Pjk f Dj dk). 
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Kada bi brojevi Dj 1 dk, koji zadovoljavaju ograničenja (30), bili poznati, onda 
bi se zadatak mogao riješiti pomoću test-statistike (26), gdje bi se uzelo 


fjk:E NP; qk - 
Međutim, ti su brojevi redovito nepoznati, tako da se moraju razmatrati kao 


nepoznati parametri, odnosno kao nepoznate komponente vektorskog parametra 


t=(P1,...,Pr,Q1,...,qs) dimenzije r + s. 
Uzme li se kao vektorski procjenitelj za nepoznati parametar t 


gdje je 
1 S S ls 
Qx zu z Ca ) 


Pri čemu su Fj i Ci, statistike (uzoračke m s vrijednostima f; i g, defini- 
ranim u (31), primjenom Fisherova ori (v. (17)) zaključuje se da vrijedi 


Li Fk NP, (Fu — "P,Q+)? 
9 Be rr = g ža nP, Qu 


X (r— D(s— 11. 


Očigledno je, naime, da komponente vektorskog parametra t nisu nezavisne, jer 
između njih postoje dvije funkcijske veze (v. (30)), tako da je £, zapravo, nepo- 
znati vektorski parametar dinmenzijev =r-1+s-1|=r+s—2 što prema 
Fisherovu teoremu ima za posljedicu pa. test-statistika (33) ima Hikvadrate razdiobu 
sars—v—-1|=(r—1)(s— 1) stupnjeva slobode. 


Iz (33) se razabire da se vrijednost test-statistike D(T) 


r 5 fa» 
(34) pe (fju — nb)? še e zoi 2jk = 


može interpretirati kao pokazatelj * "udaljenosti? od nezavisnosti slučajnil varijabli 
A1 Y, dobiven na danom n-članu nizu mjerenja slučajnog vektora (X,Y) i uz 
provedeno Srupiranje podataka u razrede. Sada možemo odrediti kritično područje 
testa, uz zadanu razinu značajnosti a, uvjetom 

S m 
(35) da). 


a m=(r—1)M(s>—1). 

Prema tome, hipoteza o nezavisnosti odbacuje se onda, kada se na danim po- 
dacima dobije ? "udaljenost? d veća od kritične vrijednosti H-! (1—a). Za praktičnu 
primjenu promatranoga testa važno je Još primijetiti da su uvjeti Pišlčrova teorema 
praktički zadovoljeni ako svakom polju kontingencijske tablice pripada frekvencija 
koja nije manja od 10. Iz formule (34) se, nadalje, vidi da vrijednost test-statistike 
OVIisi samo o frekvencijama, ane io vrijednostima slučajnih varijabli X 1 Y, tako da 


se Opisani test inmože primijeniti i za testiranje hipoteza o nezavisnosti nenumeričkih 
statističkih obilježja. 
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5. primjer 


U 2. primjeru u III.6. navedena je kontingencijska tablica (tabl. 5), gdje je 
r=21is=31u kojoj su dane empirijske frekvencije odgovarajućih polja te tablice, 
a koje se odnose na istraživanje veze između povišenoga krvnog tlaka i pušenja. 
Krvni tlak (X) tretiran je kao nenumeričko obilježje klasificirano u r = 2 razreda 
(normalni i povišeni), a pušenje (Y ) kao nenumeričko obilježje klasificirano u s = 3 
razreda (nepušač, blagi pušač, teški pušač). 

Usporedi li se veličina f* (formula (39) u III.6) s veličinom d iz (34), odmah 
se vidi da je d = nf*. Budući da je u 2. primjeru iz 111.6. n = 1801 f* = 0,08, 
onda je odgovarajuća vrijednost test-statistike d = 180 - 0,08 = 14,4. Uzme li se 
a = 0,01, nalazi se dajem =2i H7'(0,99) = 9,21 (v. tabl. VI. u Dodatku), pa se 
vidi da dobivena vrijednost test-statistike pada u kritično područje [9,21 ; oo), što 
znači da hipotezu Hy o nezavisnosti promatranih veličina X i Y treba odbaciti. U 
konkretnom primjeru to znači da izmjereni podaci upućuju na postojanje određene 
statističke zavisnosti između krvnog tlaka i pušenja. 


6. Hipoteza o jednakosti vjerojatnosnih razdioba 


Mnogi praktični problemi svode se na zadatak testiranja hipoteze o jednakosti 
dvije vjerojatnosne razdiobe ili više njih. Riječ j je, zapravo, o tome da se na temelju 
dvaju nizova statističkih podataka z1,...,Zm 1 Y1,...,Vn, donese odluka o tome 
da li oni potječu od iste teorijske razdiobe vjero atnešti, ili od različitih. Praktički 
gledano, problem je donekle sličan problemima opisanim u 8. 19. primjeru u VIII.7, 
gdje se polazilo od pretpostavke da je riječ o podacima koji potječu od normalne 
razdiobe, pa je trebalo testirati hipotezu o eventualnoj jednakosti odgovarajućih 
parametara (gio). Sada se neće isticati pretpostavka o određenoj parametarskoj 
klasi vjerojatnosnihi razdioba, već će se pokazati da se, uz vrlo općenite pret- 
postavke, problem može riješiti primjenom hikvadrat-testa. 

Pretpostavimo da je riječ o diskretnoj razdiobi vjerojatnosti s konačnim 


,a, Ji pripadnim vjerojatnostima pj > 0,3. pj =1 
jzi 


skupom vrijednosti A = fai,.. 


(v. IV.I. 1IV. 2). Ako su u nizu podataka zi,...,Tm dobivene frekvencije fj, a u 


nizu Yi,...,Vn frekvencije gj vrijednosti a; € A, onda vrijedi 
r r 
(36) 4 =, 39 =: 


jel 321 


. , . še pa l gs g Pa 1 NN .. “ 
Za odgovarajuće relativne frekvencije pj = . Je tan= 29 dakako, vrijedi 


(37) S m=Xq=1. 


jel j=l 


Da bi se konstruirao test za testiranje hipoteze Hg: (oba niza podataka potječu 


Pon o Ja TT = 
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od iste vjerojatnosne razdiobe), prema alternativnoj hipotezi Hy: (nizovi podataka 
ne potječu od iste vjerojatnosne razdiobe), treba definirati prikladnu test-statistiku, 
koja će omogućiti definiranje kritičnog područja testa, uz zadanu razinu značajnosti 
a. Jedna od mogućnosti da se to postigne izgleda ovako: Pretpostavi se da prvi 
niz podataka 21,...,Zm potječe od određene diskretne razdiobe vjerojatnosti, pa 
se na temelju Pearsonova teorema zaključuje da, za velike m, vrijedi 


KP poj 
(38) Dj= > Uren meX(r—1). 
jel Pj 


Također se pretpostavi i da drugi niz podataka y,,...,Un potječe od iste vjerojat- 
nosne razdiobe, zbog čega , za velike n, vrijedi | 


(39) De = X MA a č(n— 1). 
J 


j=l 
Slučajne varijable D; i Do su nezavisne, pa zato vrijedi (v. točku 4. u V_.6) 
(40) D=D+D2X(2r—2). 


Statistika Dy čini se vrlo prikladnom za indiciranje valjanosti hipoteze Hy, međutim 
nezgoda je u tome što nisu poznati parametri p,,...,pr koji se, dakako, mogu 
razmatrati kao komponente vektorskog parametra t = (Pi,...,Pr). Čini se, stoga, 
razložnim zamijeniti te parametre u (40) njihovim procjeniteljima, ali na uzorku 
veličine m + n, koji je dobiven spajanjem danih dvaju nizova podataka. Prema 
tome pj će se zamijeniti sa 


m+n 
gdje su fj i Ć statistike s vrijednostima Bra gj. Tada će odgovarajuća test- 


-statistika izgledati 


px [BP a UP] a Bo Bo | 


nmi P; P, m+n jE 
odnosno 
(42) pa sene) 


mn naaaj 
j=l u ih Crj 


Ako je hipoteza Il stvarno istinita onda, u skladu s, Fisherovim teoremom, 
test-statistici D iz (42) pripada hikvadrat-razdioba sa 2r— 2—(r—1) =r-1 
stupnjeva slobode. To omogućuje da se kritično područje razine značajnosti a 
odredi uvjetom 


(43) dd let). 


gdje je d vrijednost test-statistike D iz (42). 


| 


IX.6 Hipoteza o jednakosti vjerojatnosnih razdioba 293 


6. primjer 


Za obradu određenoga nastavnog gradiva primijenjene su dvije različite nas- 
tavne metode. Metoda M, primijenjena je u skupini A od 100 učenika, a metoda 
M>2 u skupini B od 200 učenika. Da bi se utvrdio učinak, svi su učenici ispitani 
i ocijenjeni odgovarajućom ocjenom od 1 do 5. Dobiveni rezultati prikazani su u 
tabl. 4. Može li se, na temelju rezultata iz tabl. 4, smatrati da su obje nastavne 
metode jednakog učitika? | 


Tablica 4. 


| Es 


1 (2 3 4 


Skupina A 
Skupina B 


Da bi se na ovaj zadatak mogao primijeniti hikvadrat-test, pretpostavit će 
se da postoji određena diskretna razdioba vjerojatnosti koja opisuje statističku 
zakonitost razdiobe frekvencija pojedinih ocjena u određenoj populaciji učenika pri 
usvajanju određene nastavne građe. Tada se postavljeno pitanje može formulirati i 
kao problem testiranja hipoteze Ho:(nizovi frekvencija skupina A 1 B potječu od iste 
teorijske razdiobe), prema alternativnoj hipotezi II; :(ne POtJecu od iste razdiobe). 

U skladu s uvedenim oznakama imamo m = 100, n = 200 i r = 5, a odgo- 
varajućim proračunom dobiva se vrijednost test- statistike d = 9,88. Uzme li se 
a = 0,05, iz tabl. VI. u Dodatku odčitava se H71(0,95) = 9,49, pa se iz (43) za- 
Hljučnje da dobivena vrijednost test-statistike a u kritično Bodnič e što znači 
da hipotezu Ho treba odbaciti. Pri praktičnoj interpretaciji toga rezultata reći 
ćemo da dobiveni podaci iz tabl. 4. upućuju na značajne razlike u pogledu učinka 
između nastavnih metoda Mj; i M». 

Važno je stalno unati na umu da hikvadrat-test zahtijeva velike uzorke, što 
znači da se opisani test smije primjenjivati sarmmo za velike m i velike n. Praktički 
to znači da se, u slučaju pojave frekvencija manjih od 5, treba izvršiti grupiranje 
podataka u razrede, čime se, naravno, smanjuje ". Grupiranje u razrede je, dakako, 
nužno ako je riječ o kontinuiranoj razdiobi vjerojatnosti. 

Kada nas hikvadrat-test navede na zaključak da se odbaci nul-hipoteza o jed- 
nakosti razdioba, možemo biti prilično uvjereni da smo ispravno postupili. Kada 
nas, međutim, navede da prihvatimo hipotezu o jednakosti razdioba, a da pritom 1 
nismo raspolagali s naročito velikim uzorcima, onda ne smijemo biti previše čvrsto 
uvjereni da smo ispravno postupili. 

Slično kao u IX.4, može se postaviti pitanje o minimalnoj razdaljini Ag 
između dviju vjerojatnosnih razdioba, koja ormogućuje njihovo razlučivanje pomoću 
hikvadrat-testa uz zadanu razinu ma a 1 zadanu veličinu uzorka. Ako su 
po = (pi, di 
1 ako se stavi 


op) l pi?) = (pp), Be PE (2) dvije diskretne razdiobe vjerojatnosti 


1 2 | 
pi= 50? +v; ), Apj = 9 m Do jela 


Matei e 
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onda se veličina 


| > (Apj)? 
(44) A(pt?p)=2» a 


zove razdaljina između pl) i p(?). Ako je m = u, tada za velike n približno vrijedi 


(v. (4) 
(45) Ao E Z pa mi 


n 
gdje za y, vrijedi sve ono što je rečeno u vezi s formulom (22). 

Tako se, na primjer, pomoću hikvadrat-testa ne mogu razlučiti dvije diskretne 
razdiobe, za koje je r = 10, uz razinu značajnosti a = 0,05, pomoću dva uzorka 
veličine n = 100, ako je njihova razdaljina manja od Ag = 0,48. Ne bi se, na 
primjer, mogla razlučiti uniformna diskretna razdioba 


1 1 1 1! 1 l 1 1) 1 
pen Sp =Presno = =D njen sno =v 


od diskretne razdiobe 


pi? (2) (2) (2) (2). 0.08 


=D; =D ED =D = 
2 ee (2) a 2) sa 
bi SD'=h =D =D =02; 


Za njihovo razlučivanje nužno je imati uzorke veličine n > 1 200. 


7. Hipoteza o homogenosti 


Hikvadrat-test može se upotrijebiti 1 za otkrivanje određenih nestabilnosti u 
nekom procesu koji se prati mijerehjem relevantne veličine X, za koju se pret- 
postavlja da u stabilnim uvjetima ima fiksiranu razdiobu vjerojatnosti. 

Tako se, na primijer, proces generiranja slučajnih brojeva (generator slučajnih 
brojeva) može shvatiti kao nezavisno ponavljanje mjerenja (opažanja) diskretne 
slučajne varijable X, sa skupom vrijednosti A = (0, 1,2,3,4,5,6,7,8,9) i pripad- 
nim vjerojatnostima po S Pi E=PE=EPEPAZEP5ZE PoE Pr = pa = po = 0,1, pa 
se odmah postavlja pitanje provjere stabilnosti toga procesa. To se obično rješava 
tako da se uzme vrlo dugi niz, recimo n = 2000, generiranih slučajnih brojeva i 
zatim razbije taj niz na određeni broj, recima m = 10, podnizova. Želimo li imati 
jednakobrojne podnizove, svaki će sadržavati 200 članova. Uspije li se dokazati da 
svih m podnizova potječu od iste diskretne razdiobe vjerojatnosti, smatrat će se 
da nema razloga sumnjati u stabilnost procesa generiranja slučajnih brojeva. Može 
se, zapravo, reći da promotreni podaci (njih n) kao cjelina podsjeduju određenu 
hormogenost, koja se sastoji u podvrgavanju jednoj te istoj vjerojatnosnoj razdiobi, 
koja, dakako, i ne mora biti baš diskretna uniforimna razdioba. 

Odmah se nameće ideja da se problem utvrđivanja stabilnosti procesa, odnosno 
homogenosti niza danih statističkih podataka, postavi kao određeni problem testi- 
ranja statističkih hipoteza. 
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apso opaze; se A 


Općenito se može postaviti zadatak da se konstruira test za utvrđivanje ho- 
mogenosti skupa od n podataka, kada se skup sastoji od m nizova, pri čemu prvi 
niz ima nj, drugi n2 itd. do m-tog niza koji ima n,, članova. To će se zapisati 


Lil, oŽini 
LT21)..)ZL2no 


(46) 
Iml».. Tmnm 


pa je riječ o tome da se testira nul-hipoteza Hy: (svi nizovi potječu od iste diskretne 
vjerojatnosne razdiobe), prema alternativnoj hipotezi Ily:(ne potječu od iste raz- 
diobe). 

Očigledno je da se ovaj zadatak može shvatiti kao određena generalizacija prob- 
lematike prethodnog poglavlja, gdje je, zapravo, bio posrijedi posebni slučaj m = 2. 


> * : : ZA R > 1 s a šed oh . 
Zadržat ćemo isti sustav označivanja, pa će fi ) označivati frekvenciju vrijednosti 


r bh m 
dj sij) r) u e-tom nizu podataka z;1,..., de: 5 Fe u » sik 
jzl i=1 
l j mj ' . r g svi 
a Du sim a odgovarajuću relativnu frekvenciju | 97 po — 11). Simbol np 
di =" 


označivat će procjenitelj za nepoznati parametar Dj, S vrijednostima p, ) pa ce za 
velike n, prema Pearsonovu teoremu, vrijediti 


(47) mey se 
1 dalje 
(48) Dy= > D; = X*[m(r—1)]. 


Slučajna varijabla Do ne može poslužiti kao test-statistika za testiranje Hy, 
prema Il,, jer nisu poznati parametri pi,...,pr. Zato će se pj zamijeniti u (47) 


procjeniteljem Pj, čije su vrijednosti 


m 


l . 
49 Di = — fi) Nk ' 
( ) Pj n x SE ) J l, doo) 1 ) 
t=1i 
t). relativne frekvencije vrijednosti dj na uzorku veličinen = ni +...+nm do- 


bivenom spajanjem svih m nizova podataka u jedinstveni slučajni uzorak. Time se 
dobiva test-statistika 


do S BP) 


(50) jes su, 


a=bjsli J 


koja u uvjetima istinitosti hipoteze Hy, prema Fisherovu teoremu, ima hikvadrat- 
razdiobu sa m(r—1)—(,—1) = (m—1)(r — 1) stupnjeva slobode. Kritično 
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područje, razine značajnosti a, određeno je uvjetom 
(51) d> H7'(l-a), v=(m—l1lX(r—]), 


gdje je d vrijednost test-staltistike D iz (50). 


7. primjer 


U tvorničkom pogonu proizvode se televizori. Svakoga radnog dana u tjednu 
registrira se broj neispravnih televizora. Provedena su opažanja tijekom n = 753 
dana 1 rezultati su prikazani u tabl. 5. U nutarnja polja tablice 5. upisane su 
PI pojave j (j = 0, 1,2,3,4,5,6, 7,8 1 više) neispravnih televizora dotičnog 

ana. 


Tablica 5. 


Broj (3) Dan u tjednu (2) 


neispravnih s aj Bou ao ia ši 
televizora z 


Može li se, na temelju podataka iz tabl. 5, zaključiti da nema značajne razlike 
u pojavi neispravnih televizora tijekom tjedna, ili pak treba zaključiti da se proces 
proizvodnje značajno razlikuje u tom pogledu po danima u tjednu. 

Odgovor na to pitanje može se dobiti primjenom upravo opisanog testa ho- 
mogenosti. Usvaja se, dakle, matemalički model u kojem se kao relevantna veličina 
X uzima dnevni broj neispravnih proizvoda, za koju je načinjeno n = 753 mjerenja, 
raspoređenih u m = 5 nizova (klasa), pri čemu prva klasa (ponedjeljak) sadrži 
Ni = 152, druga i (utorak) no = 151, treća klasa M9) na = 149, četvrta 
klasa (četvrtak) na = 1541 peta klasa (petak) ns = 147 mjerenja (podataka). 
Testirat će se a Ho:(podaci u svih pet klasa potječu od iste vjerojatnosne 
razdiobe), prema alternativnoj hipotezi H,:(ne potječu od iste razdiobe). 

Da bi se izračunala vrijednost d test-statistike D iz (50), primijetimo da 
nutarnja polja tabl. 5. sadrže empirijske frekvencije LI GE L444 99 E 
= 0,1,2,3,4,5,6,7,8), pa se lako izračunaju i konkretne vrijednosti veličina pj" 
1 P;, nužnih za proračun veličine d = 32, (s 

IZ činjenice da je = 9 i m = 5 proizlazi da test-statistici D pripada hikva- 
drat-razdioba sa v = 32 stupnja a Uzme li se a = 0,05, kritično područje 
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određeno je nejednakošću 
d > H:. (0,95) = 45,2, 


iz čega se vidi da dobivena vrijednost d = 32,7 test-statistike ne pada u kritično 
područje, pa hipotezu Hy treba prihvatiti. 

Praktički bismo dobiveni rezultat interpretirali tako, da ne postoje značajne 
razlike u pojavi neispravnih televizora u različitim danima u tjednu. 


Zadaci 


1. Na temelju podataka iz zad.I. u I. poglavlju testirajte hipotezu da podaci 
potječu od idealne igraće kocke. 


2. Može li se, na temelju podataka iz 1. primjera u 1.1. (v. tabl. 2), zaključiti 
da u promatranoj učeničkoj populaciji ima po 10 % odličnih i slabih učenika, 
po 20 % vrlo dobrih i dovoljnih, te 40 % dobrih učenika, glede nastavnog 
predmeta matematike? 


3. Može li se, na temelju podataka iz 4. primjera u 1.3. (v. tabl. 4), zaključiti 
da u tekstovima hrvatskog jezika ima 50 % suglasnika? 

4. Koristeći se podacima iz zad. 2. u I. poglavlju testirajte hipotezu da podaci 
potječu od binomne razdiobe B(r,p), gdje je " = 20 (ukupni broj učenika u 
razredu), dok je p nepoznati paranmietar (označuje vjerojatnost da bilo koji 
učenik izostane sa sata matematike). Ako je potrebno, provedite grupiranje 
podataka u razrede. 


CI 


Može li se, na temelju podataka iz zad. 5. u 1. poglavlju zaključiti da se dnevni 
broj prodlutiki pari cipela u promattanoj prodavaonici podvrgava Poissonovoj 
razdiobi? 


6. Može li se, na temelju podataka iz zad. 8. u I. poglavlju zaključiti da se vlačna 
čvrstoća čelične žice podvrgava normalnoj razdiobi? 

7. Može li se, na temelju podataka iz zad. 9. u I. poglavlju, zaključiti da je vijek 
trajanja promatranih žarulja slučajna varijabla: 
a) eksponencijalne razdiobe, 
b) lognormalne razdiobe? 

8. Može li se, uz 1 % rizika odbacivanja istinite hipoteze, zaključiti da podaci 
potječu od norinalne razdiobe, ako se uzme niz podataka iz: 
a) zad. 11. u 1. pogl. (težine novorođenčadi), 
b) zad. 12. u 1. pogl. (visine dvadesetogodišnjaka), 
c) zad. 13. u I. pogl. (tlačne čvrstoće cementnih kocki)? 
Kako izgleda zaključak ako se usvoji rizik od 10 % za odbacivanje istinite 
hipoteze? 


9. Može li se, na temelju sodnsk iz zad. 14. u 1. poglavlju, zaključiti da je 
vrijeme potrebno za popravak stroja slučajna varijabla eksponencijalne raz- 
diobe? 


10. Dokažite približnu formulu (22 


TE. 


12. 


Hikvadrat-test IX. 


, polazeći od činjenice da je A(p(%,p) = nd, 
gdje je d vrijednost test-statistike hikvadrat-testa. 
Uputa: Upotrijebite tabl. VI. u Dodatku. 


Primjenom formule (20), uz r = 10, nađite razdaljinu: 


a) Laplaceove razdiobe parametra a=v2 od N(0,1), 
b) Cauchyjeve razdiobe od N(0,1). 


Kolika je minimalna veličina uzorka n, uz koju se, s razinom značajnosti a = 
= 0,05, može razlučiti normalna razdioba s očekivanjem u = \/e i varijancom 
o? =e(e-1) (ea 2,71828...) od lognormalne razdiobe s istim očekivanjem //e 
| istom varijancom e(e-1)? 


. Može li se, na temelju podataka iz zad. 1. u III. poglavlju, zaključiti da su 


ishodi na prvoj (.X) i drugoj (X) igraćoj kocki nezavisne slučajne varijable? 


. Može li se, na temelju podataka iz zad. 5. u III. poglavlju, smatrati da su 


nenumerička statistička obilježja .Y 1 Y nezavisna? 


. Prikupite podatke kako je opisano u zad. 6. u III. poglavlju i ustanovite jesu 


li susjedna slova u tekstovima lirvatskog jezika stohastički zavisna. 


. Može li se, na temelju podataka iz zad. 1. u III. poglavlju, zaključiti da prvi 


niz podataka (2) i drugi niz podataka (y) potječu od iste diskretne razdiobe 
vjerojatnosti? 


| 


X. Prilagodba teorijske razdiobe 
empirijskim podacima 


1. Empirijska funkcija razdiobe 


Jedan od važnijih problema teorije statističkog zaključivanja svakako je prob- 
lem procjene f.r.v. F(z) = P(X < =), z € R, promatrane slučajne varijable X. 
Ako pretpostavimo da je = € R fiksirani broj, onda se F(z) može shvatiti kao 
nepoznati parametar sa značenjem vjerojatnosti događaja da slučajna varijabla 
X poprimi vrijednost koja nije veća od broja z. Problem procjene vjerojatnosti 
događaja razmotren je u VII.5, gdje je utvrđeno da je relativna frekvencija uočenog 
događaja u danom nizu podataka zi, ..., gn (mjerenja slučajne varijable X) nepris- 
tran, konzistentan i asimptotski normalan procjenitelj za nepoznatu vjerojatnost 
događaja. 

Transformira li se niz podataka zi,...,Z£, u niz nula i jedinica 1, . 


da se stavi 
_J 0 za >= 
Yi = : 


.., Un tako 


očigledno je veličina 


(1) Pz) = —(m+.+m) 


relativna frekvencija događaja 4X < x) u danom nizu podataka i ona se može 
shvatiti kao vrijednost statistike 


| 
= — m m 
lima + Y,) 


(2) F,(2) 


za koju se može reći da je nepristran, konzistentan i asimptotski normalan procje- 
nitelj za nepoznatu vrijednost F'(e) f.r.v. u točki z € R. 
Sada se prirodno naineće ideja da se promatra funkcija 


(3) rz>F(z2),z€eEnR, 


koja se zove empirijska ili uzovačka funkcija razdiobe za dani niz podataka, 
te da se istraži njezin odnos prema f.r.v. s > F(z),z € R, slučajne varijable X. 
Uočimo najprije da je empirijska funkcija razdiobe, zapravo, f.r.v. određene 
diskretne razdiobe vjerojatnosti, koja u svakoj točki z; € R ima "skok? visine —. 
n 
Ako je u točku #; palo više, recimo k podataka, onda taj skok iznosi —. 
Pretpostavi li se da su podaci poredani po veličini, tj. da vrijedi 
T1<To<...<T,, može se pisati 


———————— = 


i 
| 
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0 , Za — OO<E<<TI 
l 
ma , ZA Ri <rI< 
n 
2 
— ; ZA T<£< 23 
n 
(4) Fa(z) = 
— , ZA NL I< TILI 
n 
n—1 
, ZA TnI<ŠZz<, 
n 
l VA. Da E LE00; 


Iz (4) se vidi da je graf funkcije F,, stepenasta krivulja sa skokovima veličine — (v. 
n 
sl. 27). 
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Slika 27. Tipični graf empirijske funkcije razdiobe 


Pretpostavi li se još da je n veliko, može se primijeniti asimptotska normalnost 


procjenitelja Fo(a ') 1 rezultati izvedeni u VII.5, koji govore da se s vjerojatnošću Y 
(0 < y< 1) može jamčiti da će interval (G,,G9) sa slučajnim granicama 


E bo S 
Ci= Pa(a)- 2) PD) - B(2)] 


> za 2 


Go= M(2)+zv—F,(2)l1— F2) 


n 
pokriti nepoznatu vrijednost F(x) f.r.v. slučajne varijable X. Iz (5) se razabire 


1 
on 


veličine uzorka n, učiniti po volji malenoln. 


da širina toga intervala nije veća od 2), što pokazuje da se ona množe, izborom 


X.2 Kolmogorov-Smirnovljev test 961 


am šo: 1 2 
Odmah primijetimo da veličina oru ne ovisi o s € R, pa se može reći da 
VAI 


vrijednost F,(z) empirijske funkcije razdiobe svagdje (za svaki z € R) dobro apro- 
ksimira nepoznatu vrijednost F(z) fr. v. slučajne varijable X. U tom se smislu 


slučajna funkcija z > F, (z),z € R, može smatrati procjeniteljem za nepoznatu 
fr.v.ze> F(z),z€ R. Tome u prilog ide i poznati Glivenko-Cantellijev teorem 
(v. [26]) i izražen relacijom! 


(6) Pimax|f(e)— F(e)l>0) =1 


Relacija (6) može se protumačiti tako da, za velike n (n —> 09), maksimalna ra- 
zlika između empirijske i teorijske funkcije szdiobe teži k nulis vjerojatnošću Jedan, 
tj. za gotovo sve moguće n-člane nizove podataka z1,..., Zn dobivene mjerenjem 
slučajne varijable X. | 

Relacija (6) jamči da za velike n empirijska funkcija razdiobe s > F(z) 
postaje ne samo lokalno (za fiksirani # € MR), već i globalno (za gotovo sve 
rz € R) "bliska? nepoznatoj f.r.v. z +> F(2) i u tom smislu se funkcija F, shvaća 
kao konkretna procjena za nepoznatu: funkciju F', dobivena na temelju danog niza 
podataka z1,...,Tn. 


2. Kolmogorov-Smirnovljev test 


Vidjeli smo da empirijska funkcija razdiobe F\,, posebno za velike n, omogućuje 
dobar uvid u nepoznatu razdiobu vjerojatnosti promatrane slučajne varijable .X, 
pa se odmah nameće ideja da se ona iskoristi pri testiranju hipoteze Hg da podaci 
Ti,...,Zn potječu od konkretne vjerojatnosne razdiobe kojoj pripada f.r.v. Fo. Pro- 
matrajući, naime, empirijsku funkciju razdiobe, može se naslutiti koja je konkretna 
teorijska vjerojatnosna razdioba, karakterizirana funkcijom Fo, uzrokovala pojavu 
baš danih mjerenja zi,...,Zn. Tu obično pomaže tzv. papir vjerojatnosti o kojem 
će biti riječi u idućem poglavlju. 

Problem testiranja hipoteza o razdiobi vjerojatnosti razmotren je, doduše, već 
u IX.3, gdje je opisana primjena hikvadrat-testa, koji je izvorno kreiran za diskretne 
vjerojatnosne razdiobe, ali se može prilagoditi i za kontinuirane razdiobe. Ovdje 
će se opisati Kolmogorov-Smirnovljev test (KS-test), koji se primjenjuje samo na 
kontinuirane razdiobe vjerojatnosti. 


KS-test omogućuje testiranje hipoteze Hy: (podaci potječu od kontinuirane 
vjerojatnosne razdiobe sa f.r.v. Fo), uz zadanu razinu značajnosti a. Kritično 
područje KS-testa određuje se na temelju test-statistike“ 


IU strogom obliku relacija (6) zapisuje se 


P( lim sup IP(a) =FfF9)|=0)=1 
nE 


ŽU formuli (7) korektnije bi bilo pisati sup, umjesto inax. 
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(7) Da = mex|F,(2) — Po(2)| 


kojoj, u uvjetima istinitosti hipoteze Ho, pripada odgovarajuća razdioba vjero- 
jatnosti koja nije ovisna o fo nego samo o veličini uzorka n. 


Ta se tvrdnja temelji na činjenici da za svaku kontinuiranu slučajnu varijablu 
X, kojoj pripada f.r.v. F, vrijedi da slučajnoj varijabli Y = F(X) pripada uni- 
formna razdioba U(0, 1). Uzme li se, naime, y € (0,1) i sa G označi f.r.v. slučajne 
varijable Y , može se pisati | | 


G(y) = P(Y <y) = P(F(X) < y) = P(X < F-'(9) = FIF-'(9)] = g, 


a to znači da vrijedi 


0, za y<0 
Go) =( Y za O0O<y<1! 
l, za y>1, 
odnosno 
(8) Y = F(X) < U(0, 1). 
Transformira li se niz podataka z,, A oZaunzy=F(z),...9n = Fo(g,)i 


ako se sa (:, označi empirijska funkcija razdiobe za taj niz, u uvjetima istinitosti 
hipoteze Hy odgovarajuća teorijska razdioba je U(0, 1). Vrijednost G,(y) označuje 
relativnu frekvenciju događaja (Y < V) unizu y1,...,Vn, a budući daje y = Fo(z 
1 Fo strogo monotona funkcija, toje G,(y) = F,(2) i IFn(2)— Fo(2)| = |G,(y)—yl, 
iz čega proizlazi da je | 


(9 ax |F,(z) — Fo(x)] = : a 
) max |h(2) — Fo(2)| pa [n(9) JE 


Iz (9) se vidi da je maksimalna udaljenost između empirijske funkcije razdiobe 
za niz podataka L1,:.->Zn 1 pretpostavljene teorijske funkcije razdiobe vjerojatnosti 
Fo jednaka maksimalnoj udaljenosti između empirijske funkcije razdiobe za niz 
i odi podataka y1,...,Vn 1 f.r.v. za uniformnu razdiobu vjerojatnosti 

1). | 

Prema tome, da bi se našla razdioba vjerojatnosti statistike D,, iz (7), dovoljno 
Je promotriti D, = max |Gp(y) — gl, tj. slučaj kada se kao teorijska razdioba uzima 
U(0, 1). Problem određivanja pripadne funkcije razdiobe vjerojatnosti 


Kn(z)= P(D, <=2),zER, 


vrlo je složen pa se nećemo u to upuštati, 

Odmah se vidi da je vrijednost d,, test-statistike D,,, određeni pokazatelj 
globalne razlike između empirijske funkcije razdiobe Fi, i pretpostavljene teorijske 
fr.v. Fo, pa ako se dobije prevelika vrijednost za d,,, onda to indicira da hipotezu Hy 
treba odbaciti. To znači da će kritična područje razine značajnosti a biti određeno 
uvjetom dy > co, gdje je co određeno tako da vrijedi Po(D, > cg) = a, odnosno 


(10) CE KZ1(1 — a), 


. s m .. » 
gdje je KZ! inverzna funkcija od A, 
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Budući da ne postoji jednostavan analitički izraz za funkcije K, i K7!, 
izrađene su tablice (v. tabl. VIII. u Dodatku) za konkretnu primjenu KS-testa. 
Kolmogorov je, inače, pokazao da za velike n (n > oo) slučajnoj varijabli /nD,, 
pripada funkcija razdiobe vjerojatnosti 


(11) K(z) = > (—1)* exp(—2k?2"),r > 0, 


kojom je definirana tzv. Kolmogorovljeva razdioba. To praktički znači da se za 
n > 100 kritična vrijednost cg iz (10) može računati primjenom ove jednostavne 
tablice 

Tablica 1. 


[odo [ 005 [o 
1,22 | 1,36 | 1,63 
C 
"Boa [ova | vu 


Tako, na primjer, dobije li se na uzorku veličine n = 100 vrijednost test- 
statistike d, = 0,15, zaključit će se, uz 5% rizika da se odbaci istinita hipoteza, 
da izmjereni podaci ne potkrepljuju hipotezu o vjerojatnosnoj razdiobi sa f.r.v. 


Fo. Tada je, naime, co = Zimi = 0,136, pa se vidi da točka 0,15 (vrijednost 
test-statistike) pada u kritično područje [0,136 ; 00). 

Glavna prednost KS-testa pred hikvadrat-testom pri testiranju hipoteze o pret- 
postavljenoj kontinuiranoj razdiobi vjerojatnosti jest ta što on ne zahtijeva grupi- 
ranje podataka u razrede, što je inače vrlo proizvoljan postupak kojim se gubi 
određeni dio informacije o promatranoj pojavi sadržane u danom nizu podataka, a 
što je glavni nedostatak hikvadrat-testa. 

Nedostatak KS-testa očituje se u situaciji kada se najprije, na temelju danih 
podataka, izvodi procjena parametara pretpostavljene teorijske razdiobe vjerojat- 
nosti, a zatim se na istim podacima primjenjuje i KS-test. Nije, nalne, teorijski 
razjašnjen utjecaj procjene parainetara na razdiobu vjerojatnosti test-statistike D,,, 
što je inače riješeno Fisherovim teoremom za hikvadrat-test. 

Što se tiče razlučivosti (v. IX.4) KS-testa, poznato je (v. [4]) da se KS-testom, 
razine značajnosti a, ne mogu razlučiti vjerojatnosne razdiobe s pripadnim f.r.v. F 
1 G ako je 


4 
a za a =0,05 
vn 

(12) max [F(#) — G(2)| < 0,65 


za a=0,10. 


Promotre li se, na primjer, standardna normalna razdioba N(0, 1) i uniformna 


razdioba U(—Y3, 3), tada je 
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0, za < —v3 
G(z) = (5+), za —vš<r<Vv3 
1, za £>v3, 
tako da je 
d(z), za z<—v3 
(13) D(x) = F(2)— G(z) = 2()-5 (5+1) za —vš<e<v3 
l— (2), za tz > V3. 
A 


8 -2—V8_ -1 z 0 Lo M82 3 
Slika 28. Odnos f.r.v. za N(0,1) i U( (-V3, V3) 


Deriviranjem (13) po = dobiva se 
p(z), za < < —V3 
D'(z) — pla) — io za =VMJEerE V3 


gdje je 


l les 
e(a)=pt)= —=expl —zz“|,zE€ER, 
V2T 2 
f.g.v. za N(0, 1). 


Rješavanjein jednadžbe D'(z) = 0 po # dobivaju se rješenja zu = 0,8 1 z2 = 
= — 0,8, iz čega se zaključuje da je 


max |D(#)| = 1F(0,8) — G(0,8)| = |F(—0,8) — G(—0,8)| == 0,057. 


Može se reći da najveća udaljenost između F i G približno iznosi 0,057, pa se 
u vezi sa (12) odinah možemo pitati za koje veličine uzorka n nije moguće razlučiti 
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praanase eda 


spomenute razdiobe vjerojatnosti, recimo, uz razinu značajnosti a = 0,057 Odgovor 
se dobiva primjenom relacije (12), iz koje proizlazi 


0,84 
< = < ; 
0,057 < s > n< 218 


Prema tome, s manje od 218 podataka nije moguće KS-testom, uz razinu 
značajnosti od 5%, razlučiti standardnu normalnu razdiobu N(0, 1) od uniformne 
razdiobe U(—V3, V3). 

Općenito se može tvrditi da za pouzdani zaključak pri primjeni KS-testa treba 
raspolagati s vrlo velikim uzorkom. Ako se s relativno malim uzorkom donese 
odluka o prihvaćanju hipoteze Hy, ranija nam razmatranja pokazuju da pretpo- 
stavljenu razdiobu (F9) treba s rezervom smatrati stvarnom teorijskom razdiobom 
kojoj se podvrgavaju dani podaci, jer bi KS-testom bile prihvatljive i mnoge druge 
vjerojatnosne razdiobe. 

Praktična primjena KS-testa, a . slično je i s hikvadrat-testom, kada se ne 
raspolaže s dovoljno velikim uzorcima, opravdava se činjenicom da živarne vjero- 
jatnosne razdiobe koje opisuju statističke zakonitosti realnih slučajnih fenomena 
nisu, zapravo, ni normalne, ni uniformne, ni eksponencijalne itd., već su samo pri- 
bližno normalne, približno uniformne, približno eksponencijalne itd., pa je riječ o 
tome da se, na bar donekle objektivan način, utvrdi koji od matematičkih modela 
dolazi, dosti ne dolazi, u obzir za: opisivanje promatranoga realnog statističkog 
fenomena. 


3. Papir vjerojatnosti | 


Jedno od važnih praktičnih pitanja u problemu prilagodbe teorijske raz- 
diobe vjerojatnosti danim statističkim podacima svakako je pitanje kako naslutiti, 
odnosno pogoditi, teorijsku razdiobu koja će se dobro suglasiti s danim nizom po- 
dataka. Ako su posrijedi podaci dobiveni mjerenjem diskretne slučajne varijable X 
i broj n podataka dovoljno velik, grafikon relativnih frekvencija vrlo zorno upućuje 
na određeni tip vjerojatnosne razdiobe. 

Kada je riječ o podacima dobivenim mjerenjem kontinuirane slučajne vari- 
jable X, onda se stvari kompliciraju, Za izradbu grafikona relativnih frekvencija 
nužno je grupiranje podataka u razrede, a vidjeli smo (v. 1.6, sl. 8. 1 10) da iz- 
gled toga grafikona bitno ovisi o načinu grupiranja (širina razreda, broj razreda i 
dr.). Stoga se ne možemo pouzdano osloniti na grafikon relativnih frekvencija kao 
siguran putokaz za pretpostavku o teorijskoj razdiobi. 

Kao druga mogućnost ostaje empirijska funkcija razdiobe i njen graf, gdje ne 
dolazi do gubitka informacije zbog grupiranja u razrede, ali je očigledno da razlike u 
grafovima funkcija razdiobe vjerojatnosti za različite tipove teorijskih razdioba nisu 
toliko tipične da bi se lako uočile u pravokutnom koordinatnom sustavu s linearnim 
ljestvicama na koordinatnim osima. Zato se nameće pomisao da se organizira ko- 
ordinatni sustav s takvim ljestvicama na koordinatnim osima, koji će omogućiti 
Jasno prepoznavanje vjerojatnosne KOI iz koje potječu, sdio ie ne potječu, 
dani statistički podaci. 

Bit ideje je u tome da se izaberu takve ljestvice na koordinatnim osima, uz koje 
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će graf f.r.v. za određenu klasu vjerojatnosnih razdioba, recimo za sve normalne raz- 
diobe, biti pravac. Ucrta li se u taj koordinatni sustav empirijska funkcija razdiobe 
i ako podaci stvarno potječu od neke teorijske razdiobe iz dotične klase, njezin 
graf se neće mnogo razlikovati od pravca. Ako se on znatno razlikuje od pravca, 
pokušat će se prikazati u koordinatnom sustavu s ljestvicama na koordinatnim os- 
ima prilagođenim nekoj drugoj klasi vjerojatnosnih razdioba. Takav koordinatni 
sustav općenito se zove papir vjerojatnosti. 

Papiri vjerojatnosti za pojedine klase vjerojatnosnih razdioba, slično kao i 
tablice, unaprijed su načinjeni i mogu se obično nabaviti kao i svaki drugi tiskani 
inalei 8] Tako postoji tzv. normalni papir vjerojatnosti, koji je pripremljen za 
klasu normalnih razdioba N(pu, a2), i slični za druge klase razdioba. 

Postupak izrade normalnog papira vjerojatnosti ilustriran je na sl. 29. Na sl. 
29a nacrtan je graf f.r.v. za standardnu normalnu razdiobu N(0, l) u pravokutnom 
koordinatnom sustavu s linearnim ljestvicama na apscisnoj 1 ordinatnoj osi. 

Da bi se dobila sl. 29) najprije se nacrtaju koordinatne osi i za ishodište uzme 
točka (0 ; 0,50). Na apscisnoj osi zadržava se ista linearna ljestvica kao i na sl. 29a, 
dok se ljestvica na ordinatnoj osi dobiva tako da se najprije nacrta proizvoljan kosi 
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Slika 29. Skica postupka izrade normalnog papira vjerojatnosti 
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pravac (recimo pod kutom od 45% prema apscisnoj osi) kroz ishodište, a zatim se 
linearna ljestvica na ordinatnoj osi sl. 29a, pomoću krivulje y = P(z) i nacrtanog 
pravca, preslika na ordinatnu os sl. 29b, kao što je opisano pomoću strelica na 
sl. 29. Time je dobivena nelinearna ljestvica na ordinatnoj osi sl. 29b i u tom je 
koordinatnom sustavu graf f.r.v. standardne normalne razdiobe N(0, 1) baš nacrtani 
pravac. 

Zamislimo sada koordinatni sustav na sl. 29b bez ucrtanog pravca i to je onda 
normalni papir vjerojatnosti. Graf f.r.v. za normalnu razdiobu N(u, o“) 
(un € R,gs > 0) u tom će koordinatnom sustavu biti pravac koji prolazi točkom 
(1; 0,50) i točkom (u+4; 0,84), što proizlazi iz osnovnih svojstava normalne razdiobe 


IT — u 


F(z)= % X F(u)=%9(0)=0,50, F(u+do) = (1) 20,84. 


o 


Praktičnu primjenu normalnog papira vjerojatnosti ilustrirat ćemo idućim 
primjerom. 


1. primjer 


Uzmimo prvih deset podataka iz 5. primjera u 1.4 (tlačna čvrstoća betonskih 
kocki) i odmah ih poredajmo po veličini: 


ži = 3097. 28000. za =841147,. 24 290.10, 5 238.19, 
16 = 39,22, 17 = 40,15, 18 = 42,63, 19 = 45,00, L10 = 47,12. 


Očigledno je da se u dani normalni papir vjerojatnosti ne može ucrtati em- 
pirijska funkcija razdiobe za navedene podatke, pa ih treba transformirati pomoću 
afine transformacije, tako da to bude moguće učiniti. U tu svrhu uočimo naj- 
manju (Zmin = = 30,97) i najveću (Zmax = 47,12) vrijednost u danom nizu podataka 
1 načinimo 


I max mE L min Tinin E Imax 
> 2: 2,69, ——————> 
6 2 
Radi lakšeg računanja uzmimo a = 3 (umjesto 2,69) i b = 40 (umjesto 39,04) 
i provedimo transformaciju danih podataka (x) u novi niz podataka (2) pomoću 
formule 


— 39,04. 


repo _T=40 


(U 3 


Dobiva se niz 


ZE601. ga. ase ss=IMm ža== 06 
26 = —0,26, 27 0,05, 28 — 0,88, 29 — 1,67, Zlo E 2,31. 


Sada se u normalni papir vjerojatnosti mogu ucrtati točke 


(525 DI :010).. (2.16: 
(—0,40 ; 0,50), (0,26 
(1,67 ; 0,90). 
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Točka (* : za . ' o koa. id : 
aa čka (2,37; 1,00) očigledno se ne može ucrtati u normalni papir vjerojatnosti, 
“na zapravo nalazi u beskonačnosti. 


av 2 x E . « .. . . 
edenim točkama određen je graf empirijske funkcije razdiobe za niz poda- 


taka o glučaina! vani o 
S . . . . . . . = o 
lučajnoj varijabli Z = , pa se vidi da se dobiveni niz točaka može 


vrl Mau ne i S 
o dobro aproksimirati pravcem, što upućuje na zaključak da taj niz podataka 


Z a ' 
nem potječe od normalne razdiobe N(uz,o2). Budući da je X = a2 +90, 
JEdI da niz izvornih podataka z,,...,Z10 potječe od normalne razdiobe 


Nau, + b ' 4202) 


Slika 30. Empirijska funkcija razdiobe za podatke iz 1. primjera 


6, Mi pne _odčitati" i procjene Hz 1 O. za nepoznate parametre pi, 1 

a ase au lo = ag, mogu uzeti kao procjene za nepoznate parametre 11 

Pa zdiobe N(puu,a“*), od koje se pretpostavlja da potječu izvorni podaci 

) +, L10. 

ki e primjeru (v. sl 30) nalazimo da je 12 = —0,75 i o, = 1,90, 
= 5(—0,79) #40 = 37,75 i # =3.1,90 = 5,70. 

ić MH uk CIN procjene za nepoznate parametre nisu egzaktne, 

bivenoga ok a a postiipa! odčitavanja? brojčanih vrijednosti S do- 

e pau: o to i nije bila glavna svrha primjene papira vjerojatnosti, 

poglavlju. ne nepoznatih parametara postoje egzaktne metode opisane u VI. 

i No je M ranije rečeno, papir vjerojatnosti omogućuje jednostavan, jasan 
an uvid u eventualnu usklađenost, odnosno neusklađenost, empirijske 


UNKCije 1: : aa ; : d go 
3 kis razdiobe s pretpostavljenom klasom teorijskih razdioba vjerojatnosti i to 
JeEBova osnovna svrha. 


X. 
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Primjedba 


Na kraju I. 111. poglavlja primijećeno je da primjena računskih strojeva (osob- 
nih računala) omogućuje brzo i točno provođenje statističkih proračuna 1 grafičko 
prikazivanje statističkih podataka. Statističkim programskim paketima redovito je 
obuhvaćeno oblikovanje koordinatnih sustava s različitim funkcijskim ljestvicama i 
prikazivanje statističkih podataka u njima. Time je automatizirana izradba "papira 
vjerojatnosti" i njihova primjena. 


Zadaci 


Skicirajte graf odgovarajuće empirijske funkcije razdiobe za podatke o diskret- 
nome statističkom obilježju .X iz zad. 1-7. u I. poglavlju. 

Skicirajte graf empirijske funkcije razdiobe za prvih dvadeset podataka u 5. 
primjeru u 1.4. | 
Skicirajte graf empirijske funkcije razdiobe za podatke o kontinuiranome 
statističkom obilježju AX iz zad. 8-14. u I. poglavlju. 

Primjenom KS-testa, uz razinu značajnosti a = 0,05, testirajte hipotezu da 
podaci iz | 


a) zad. 8. u I. pogl. potječu od N(300, 289), 
b) zad. 9. u I. pogl. potječu od Ex(0,005), 
c) zad. 11. u 1. pogl. potječu od N(3,5 ; 0,5), 


d) zad. 14. u I. pogl. potječu od U (0 ; 6,5). 


Nađite najveću udaljenost između f.r.v. standardne normalne razdiobe N(0, 1) 
i Laplaceove razdiobe parametra a = V2. Primjenom formule (12) odredite 
veličinu uzorka no ispod koje nije moguće razlučiti te dvije razdiobe prim- 
jenom KS-testa, uz razinu značajnosti: 

a) a = 0,05 b) a = 0,10. 

Koliko je najmanje (no) podataka potrebno da bi se razlučila standardna nor- 
malna razdioba N(0,1) od tzv. pomućene normalne razdiobe (contaminated 
normal distribution) kojoj pripada f.r.v. 


G(2) = po(4) +(1-p)P (2) 2 € R, 


gljejel<p<lic>1? Nađite konkretno ng za p=091g=2. 

Što je papir vjerojatnosti za klasu uniformnih razdioba? Može li se, uvidom u 
empirijsku funkciju razdiobe za podatke iz zad. 14. u I. poglavlju, zaključiti 
da se dani podaci pokoravaju nekoj uniformnoj razdiobi? 

Transformirajte podatke iz zad. 8. u I. poglavlju na odgovarajući način 1 zatim 

. . . . . | . +... .. . 

u normalni papir vjerojatnosti ucrtajte empirijsku funkciju razdiobe za trans- 
formirane podatke. Povucite pravac koji najbolje aproksimira tu funkciju, 
"odčitajte* procjene za očekivanje (pu; ) i standardnu devijaciju (g,), a zatim 


i 
hi 
jd 
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izračunajte odgovarajuće procjene za parametre #1 o normalne razdiobe za 


koju se pretpostavlja da pripada izvornim podacima. Usporedite dobivene 
vrijednosti s vrijednostima procjena dobivenim na drugi način. 


Konstruirajte papir vjerojatnosti za klasu eksponencijalnih razdioba Ex(a) 
(a > 0). (Uputa: Uzmite Ex(1) kao standardnu eksponencijalnu razdiobu 
Njezin graf nad intervalom [0, 09) preslikat će se u polupravac iz ishodišta X 
koordinatnom sustavu s linearnom ljestvicom na apscisnoj osi i funkcijskom 
ljestvicom na ordinatnoj osi dobivenom na način opisan na sl. 29.) 


Ucrtajte u papir vjerojatnosti za eksponencijalne razdiobe graf empirijske 
funkcije razdiobe niza podataka dobivenih prikladnom transformacijom po- 
dataka iz zad. 9. u I. poglavlju. (Uputa: Provedite transformaciju po formuli 


L Zee s, akui : 
ar gdje je za a uzet broj približno jednak aritmetičkoj sredini danih 


podataka.) Može li se zaključiti da se dani podaci podvrgavaju nekoj ekspo- 
nencijalnoj razdiobi? Kako biste s dobivenog grafikona *odčitali? procjenu 
2a nepoznati parametar eksponencijalne razdiobe? 


XI. Regresijska analiza 


1. Regresijska zavisnost 


U prethodnim poglavljima razmotreni su različiti matematički modeli teorije 
statističkog zaključivanja u kojima je slučajni uzorak interpretiran kao niz po- 
novljenih nezavisnih mjerenja jedne te iste slučajne varijable, odnosno u nekim 
situacijana i dvodimenzinalnoga slučajnog vektora. Mnogi praktični problemi, 
ineđutim, zahtijevaju da se donesu određeni zaključci o nizu slučajnih varijabli 
Yi,...,Yn, koje ovise o neslučajnoj (nezavisnoj) varijabli s, na temelju niza 
sparenih mjerenja (21,91),...,(Zn,Vn), Edjesu z1,...,Zn vrijednosti nezavisne va- 
rijablez,avyi,...,Yn su odgovarajuće vrijednosti slučajnih varijabli Yi, ..., X. 

Tako, na primjer, z može označivati dob, a Y krvni tlak osobe, pa se postavlja 
zadatak da se istraži veza između krvnog tlaka i dobi. Poznato je, naime, daje krvni 
tlak za osobe iste dobi slučajna veličina, za koju se može pretpostaviti određena 
statistička zakonitost, tj. inože se modelirati kao slučajna varijabla s pripadnom 
razdiobom vjerojatnosti. Uzme se, recimo, normalna razdioba N(pu, o“). 

Također je poznato da se sa starenjem povećava krvni tlak, pa se prirodno 
nameće zadatak da se istraži i matematički opiše statistička zakonitost koja 
obuhvaća i vremensku promjenljivost krvnog tlaka. To znači da se mora proma- 
trati jedna familija normalnih razdioba, tako da svakoj dobi = pripada odgovarajuća 
normalna razdioba N(u(z),o?(2)) krvnog tlaka Y,. Činjenica da se sa starenjem 
povećava krvni tlak odrazit će se na funkciju z +> (2), koja označuje srednju vri- 
jednost krvnog tlaka osobe dobi r, tako da će ta funkcija monotono rasti, dok će, 
recimo, o*(2) = o* biti neovisno o z. x 

Općenito se zadatak svodi na to da se ustanovi priroda ovisnosti slučajnih 
varijabli Y, o nezavisnoj varijabli z, na temelju niza sparenih mjerenja (2;,y), 
WE 1oiasn): 

Ako se matematički model definira relacijom 
(1) M= met )j+a, PEN isti 
gdje je z > pu(r) realna funkcija jedne realne varijable određena parametrom 
t(t€0)a€;,...,€n nezavisne slučajne varijable s očekivanjem E[£;] = 0 i 
varijancom VI[£;] = o“, onda se govori o jednodimenzionalnome regresijskom 
modelu. 

Može se reći da se u opisanome regresijskomi modelu pretpostavlja da je rezultat 
mjerenja promatrane pojave u momentu z; slučajna varijabla Y;, koja je nastala 
zbrajanjem vrijednosti regresijske funkcije ju(z;) i slučajne greške £;. 

Osnovni je zadatak regresijske analize da se, na temelju niza sparenih injerenja 
(£1,V1),...,(Zn,Vn), procijene nepoznati parametri t i o“ (t može biti, i re- 
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dovito i jest, vektorski parametar). Preciznije govoreći, riječ je o tome da se 
definiraju odgovarajući procjenitelji za nepoznate parametre t i o“, polazeći od 
((Z1,Y1),...,(Zn, Yn)) kao slučajnog uzorka. Primijetimo da se ovdje slučajni uzo- 
rak shvaća u nešto drukčijem smislu nego ranije, jer su Yi,...,YX,, doduše, me- 
đusobno nezavisne slučajne varijable, ali ne nužno i sa zajedničkom razdiobom 
vjerojatnosti. 

Da bi se mogla postaviti što realnija pretpostavka o regresijskoj funkciji, obično 
se podaci (21,91),...,(Zn,Vn) prikazuju kao točke u pravokutnome koordinatnom 
sustavu u ravnini, iz čega se dade naslutiti tip zakonitosti koji.povezuje nezavi- 
snu varijablu z i vrijednosti slučajnih varijabli Y,. Upućuju li dobivene točke na 
aproksimaciju pravcem, uzet će se t = (a,b) € R* i staviti 


(2) | M(2) = a2 +0, | 
tj. pretpostavit će se da je regresijska funkcija polinom prvog stupnja, odnosno da 


Je regresijska linija pravac. Parametar a zove se u tom slučaju koeficijent regresije, 
a pravac y = az + b zove se regresijski pravac. 


VA 


— ——————>+ —+———>+ + +————-+4 — — = 
T] £2 Ti In 


Slika 31. Skica regresijskog problema 


Problem regresijske analize sastoji se u određivanju "dobrih" procjena a, bi 
0" za nepoznate parametre a, bi o". Odmah se postavlja pitanje može li neka 
od već razmotrenih metoda (ML, metoda momenata i dr.) za dobivanje procje- 
nitelja poslužiti da se i u ovom slučaju odrede prikladni procjenitelji nepoznatih 
parametara. Ako se ne uvedu dodatne pretpostavke o tipu vjerojatnosne razdiobe 
slučajnih varijabli £;, onda je očigledno da nijedna od metoda opisanih u VII. 
poglavlju ne dolazi u obzir za procjenu parametara u danom problemu regresijske 
analize. 


Ža procjenu parametara u problemima regresijske analize redovito se primjenjuje 
metoda najmanjih kvadrata (v. 111.4). U promatranom slučaju to znači da 


se procjene a i b trebaju odrediti tako da vrijedi 


J 


n 


J ni i — da; —- b 2 — i — a i — b)?. 
(3) ra 2_(y az ) »_(y aa ) 


i=1 i=1 


Akojen >2isvia; (i=1,...,n) nisu međusobno jednaki, onda se lako pokazuje 
da sustav jednadžbi 
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Ob doli —azi — 0) =-2) (u —azi—b) =0 


i=1 iz 


ima jednoznačno rješenje 


m mk E 
(4) d=u= mii = — »_(zi — zu, 


s2 ns; = 
a a S oo _ 
(5) b=b="-az=/— I- —s(m:—7) Vi, 
mn“ si 
M i 
gdje je 
= l s _ jE sa i ha 
S ZA = —).M, s = (ri >)“, 
(6) S e: : 
Sry sos da — (yi — 7) 
 i=1 


Stavi li se 


9 
old 


slučajne varijable A, B i S*, kao određene funkcije slučajnog uzorka 
(21, Y1),...,(Zn;Yn), mogu se smatrati procjeniteljima nepoznatih parametara 

. 9 r 2 ; . e .. . . .. 
a, bio“. Kaže se da su to procjenitelji u smislu metode najmanjih 


kvadrata ili kraće MNK-procjenitelji. Za pravac y = az +b kaže se da 
je procjena za nepoznati regresijski pravac y = az + b, dobivena metodom naj- 
manjih kvadrata na temelju konkretnog niza mjerenja (Z1,91),--.,(Zn,Yn)- 


Često se, međutim, i pravac y = ar + b zove regresijski pravac. 
Primijetimo da iz (5) proizlazi - 


VE: dr+0, 
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do a LT e 
što pokazuje da regresijski pravac prolazi točkom (2,7), koja se može interpretirati 


kao određeno središte izmjerenih podataka. . 
Uzmu li se u obzir pretpostavke modela (1) i (2), odmah se vidi da je 


(10) ENl=m(s)=am+b VYI=VlEl=o, i=1.n, 


iz čega proizlazi da je 


: ue. M 
m HAl-. VA- 2 
S | S o" T? 
, == === l zaga ) 
(12) E[B] b, 1 m ( + =) 
(13) E[S*] = a“. 


. NS Zi . Ž a . . BK RJENE . 2 
To pokazuje da su A, B i S* nepristrani procjenitelji za parametre a, biao“. 
Za A i B se vidi da su i konzistentni procjenitelji, a može se dokazati da su također 
i asimptotski normalni procjenitelji, što znači da se za velike n može smatrati da 


(14) i s(a£:), 


e 2 
(15) B-n(4,5(1+2)) 
on S 


To omogućuje da se, primjenom metode opisane u VII.3, odrede intervali pov- 
jerenja zadane pouzdanosti 7, za nepoznate parametre a 1 b, pri čemu se, umjesto 

> uzi ijednost s? ist jenitelja S* iz (9) 
nepoznatog parametra a“, uzima vrijednost s“ nepristranog procjenitelja , ' 
Odmah se vidi da Je 


l n | n g2 
a 50 m mm E. 2 _ Say 
(16) u EVI ni S o Pe a2 
i= : 


gdje je 
1 n 
9 i _\2 
EE s —u\. 
(17) Sy i (9 y) 
' rizi 
Sada se, za svaki x € R, može promatrati i statistika Ar + B, kao nepristran, 


konzistentan i asunptotski normalan procjenitelj za az +0, te odgovarajući interval 
povjerenja zadane pouzdanosti y. Očigledno je, naime, ELAx+8B] = #F[A]+E[B] 
= az+b, što pokazuje da je riječ o nepristranom procjenitelj u. Slučajne varijable A 
i B općenito nisu nekorelirane, pa se, na temelju (7) i (8), lako izračunava njihova 
kovarijanca 


Pai 


(18) Cov(A, B) = E[€ 8] - EUJE[B] = - 23 


a zatim se iz (11), (12) 1 (18) dobiva 


i 
| 
1 
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m = a 2 e oi 2 im. sko 
(19) VlAz + B] = z*V[A] + V[B] + 2xCov(A, B) = . 1 + u ' 


iz čega se razabire da je riječ o konzistentnom procjenitelju. 

Stavljajući f=Ar+ B, može se primijeniti metoda opisana u VII.3. za 
određivanje intervala povjerenja pouzdanosti 7 pri velikim uzorcima, za nepoznatu 
vrijednost az + b. Na temelju formula (38) iz VII.3, gdje treba, umjesto R,(T), 


staviti V[Az + B] iz (19), dobivaju se vrijednosti donjeg i gornjeg ruba intervala 
povjerenja 


ze < d BI 2 d(z 
(20) gi(z) = az +b — 2 , g(t)=ar+b + 2 
gdje je 
: as is \2 
(21) da)=2 eek ie 
n S 


širina intervala povjerenja na mjestu z € R. 

Iz (21) se razabire da širina intervala povjerenja ovisi, osim o pouzdanosti 7, 
veličini uzorka n i karakteristici greške g“, još i o vrijednosti nezavisne varijable z, 
tako da je širina intervala najmanja za z = £. Također se vidi da veće rasipanje 
nezavisne varijable (s2) utječe na sužavanje intervala povjerenja. 


1. primjer 


Na skupu od n = 100 osoba različite dobi mjeren je krvni tlak (sistolički tlak). 
Nakon statističke obrade izmjerenih podataka dobivene su ove vrijednosti relevant- 
nih veličina: 


g 45. (prosječna dob osoba u godinama) 

Sg =12 (standardna devijacija dobi) 

YU =130 (prosječni sistolički tlak) 

Spa9 (standardna devijacija sistoličkog tlaka) 
Say ="0D: 


Na ternelju formula (4) i (5) dobivaju se procjene 


xy 86 = a 
sy _ 8,06, b=7-4F=130—0,6-45 = 103, 


uisiraskvr! 


nepoznatih parametara a i b regresijskog pravca, što omogućuje da se napiše njegova 
jednadžba 


y = 0,62 + 103 
i nacrta njegov graf (sl. 32). 
Budući da je veličina uzorka dovoljno velika (n = 100), može se, primjenom 


2 100 (81 = S) a 31, odnosno o & 9,1. 


formule (16), uzeti da je a = s* = — 
e (16), uzeti da je g S a Pr 


Uzme li se 1 = 0,95, iz (21) se dobiva širina intervala povjerenja za nepoznatu 
veličinu az + b, izražena u obliku 
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y = 0,67 + 103 


—t-— 
80 


Slika 3: S : : : 
ika 32, Prikaz regresijske ovisnosti i 95-postotnog intervala povjerenja 


d(2) =:26] 96 9,7 (2 sa 45)“ : 2 
90 + ——1/ 1+ = 0,19 V144 + (2 — 45)“. 

10 a 144 ) 
Tako S€, za rt — 4 


dobiva d(20) 


i 19, dobiva najmanja vrijednost d(45) = 2,23, dok se za # = 20 
= 9,26, isto kao i za z = 70. 


2. Linearna regresija 


= Bitna je Pretpostavk 
1 (21), da se raspolaže g 
asimptotska normalnost 
povjerenja. U 


a, koja je omogućila dobivanje formula (14), (15), (20) 
velikim uzorkom (n —> 09), jer se tada može iskoristiti 


Procjenitelja A i B pri određivanju odgovarajućih intervala 
dovoljno veliki kaka praktičnim problemima, međutim, neće se raspolagati s 
ma "M brojem mjerenja, pa se moraju prihvatiti neke druge pretpostavke, 
€ omogućiti Re . ' . ž pa a adna 2. 5 60 
nepoznate . m određivanje vjerojatnosnih razdioba procjenitelja A, B 1 o“ ga 
€ parametre a, bi g2 regresijskog imodela 
(22) 
he =ati+b+ć, 1=1,...,N. 


To će Se D 161 A . 
e se postić saa dtd 
jablama : ae dodatne pretpostavke da nezavisnim slučajnim vari- 
E E > €n Pripada zajednička normalna razdioba N(0,o“). Pretpostavlja 
put) Bash i "ZMjerena vrijednost y; (i/=1,...,n), koja se zove još 1 izlaz (vut- 
lica obo o funkcijske (afine) ovisnosti z; > ari + bi normalne 
iz (22) se i , očekivanjem nula i standardnom devijacijom a > 0. 
o"aZabire da su Y,,...,Y, nezavisne slučajne varijable i da vrijedi 
(23) | 
Ne N(azi+b,07%), i=1,...,n, 
aiz(7)i (8) da su 4 | B | 


a inearne kombinacije slučajnih varijabli M1, ...,Xn, Pa na 
temelju izričaja točke | ne kombinacije slučaj J 1+. fno,] 


«u V.6, proizlazi 


24) 2 2 
A-a(a,£) 
TEH 


1 
1 
| 
Hi 
1 
1 
| 
U 


moramo 


X1.2 Linearna regresija ŽLI 


3 22 52 
(25) B-n(6,2(1+2)). 
n Si 


Relacijama (24) i (25) izriče se formalno isto što i relacijama (14) i (15), uz 
primjedbu da u upravo opisanom modelu regresije one vrijede za svako n > 2, dok 
u modelu iz XL.1. vrijede samo za velike n (praktički za n > 100). 

Ostalo je još da se u ovom modelu razjasni situacija oko razdiobe vjerojatnosti 
slučajne varijable S? iz (9). Vidi se da je S? izraženo kao zbroj kvadrata određene 
linearne kombinacije normalnih slučajnih varijabli Y;, A i B, koje međutim nisu 
nezavisne, što onemogućuje neposrednu primjenu izričaja točke 5. iz V.6. To, ipak, 
upućuje na zaključak da će slučajnoj varijabli S*, kao zbroju kvadrata normalnih 
slučajnih varijabli, pripadati vjerojatnosna razdioba povezana na određeni način s 
hikvadrat-razdiobom. To se zaista može dokazati (v. XI1.6), tako da vrijedi 


(26) 


kao 1 činjenica da su Ai S?, te B i S2 nezavisne slučajne varijable. 

Relacije (24), (25) i (26) omogućuju da se egzaktno odrede intervali povjerenja 
zadane pouzdanosti y za nepoznate parametre a i b, te za vrijednost az + b regre- 
sijske funkcije za svaki z € R. Pozivajući se, naime, na točku 7. iz V.6, zaključuje 
se da 


(27) === 


ll 


(28) mn 


To omogućuje da se odrede rubovi odgovarajućih intervala povjerenja zadane pouz- 
danosti y (v. VII.2). Za parametar a dobiva se 


Pos 


go =a 


spu/N 12 


S 
(29) Ji. = GN +T srv/n 


a za parametar b dobiva se 


(30) Ji1 = b — Ty 


Da bismo odredili interval povjerenja za vrijednost regresijske funkcije 
kg = az +, primijetimo najprije da iz (8) proizlazi 


(31) Ax+B=Aq#-7)+Y, 


pm e. PN jE 
gdjeje Y = : X, No ENI] =at, VIY] = —a*“. 12 (23), pak, slijedi da 


i=1 N 
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YN dZ+b 202 S 3 : 
n koeficijent T,, koji se odnosi na Studentovu razdiobu sa n — 2 stupnja slobode. 
Umjesto nepoznatog parametra g u (21), koji se u praksi zamjenjuje pripadnom 
procjenom s, u (35) stoji baš s. 
Napomenimo još jednom da formula (35) vrijedi za svako n > 2, dok formula 
(21) približno vrijedi za velike n. 


a mož | li 
, a Može ge pokazati i da 
zbog čega slučajnoj var | 
normalnih slučajnih Var 


su A 1 Y nezavisne slučajne varijable, 
ijabli A(z — zg) 


Dabne 0 + X, kao linearnoj kombinaciji nezavisnih 
Jabli, Pripada 


normalna razdioba s očekivanjem 


1 varijancom Ko = a(z - T)+aF+b=ax+b 
9 9 i e + 
02 - 20 2 s 2. primjer 
0 (Dida 2 1+ (* 3 Primj 
To znači da vrijedi nm ći Sr Mjerenjem varijabli z i Y, dobiveni su rezultati prikazani tablicom 1. 
s : ae Tablica 1. 
or ar + b, pove l a a oi 
: n x Sr, | : 
Nadalje, iz (26); (29 ' | po 
(26) i (32), PoZIvom na točku 7. iz V.G, proizlazi | 
(33) = -42+8 aa | 
rz | 
Aa | 
+B-ar - b 
a to omogućuje da se | 
dol | 
pouzdanosti y za Moa 1 formule | 
va se U vrijedno 
i 
I 
9(2) | 0 1 2 3 zo od4 5 
(34) : Slika 33. Prikaz regresijske ovisnosti za podatke iz tabl. 1. 
i 
92(2) Pogled na sl. 33. odmah nam sugerira da bi se mogao usvojiti model linearne 
regresije. Izvrše li se proračuni prema formulama (4), (5), (6), (16) i (17), dobiva se 


Prema tor 
ne, u opisano | 
sd “om m ge 
ne regresije, moguće je hans koji Se zove model jednodimenzionalne linear- 
nepristrano i konzistentn “natu vrijednost regresijske funkcije uy(z) = az +0 
Az + B, pri čemu ge me Pomoću vrijednosti az + b procjenitelja 
e. . a6 » a ' i zi , or] 
premašiti vrijednost JAMČIU & vjerojatnošću y da apsolutna greška neće 


= 3,37, S, =1,21, Szy = 4,24, 


Sa daa hi šučćA 


I 
€ 


a=291, b=031, s*=0,47. 


O Prociieniti E : e , : 
Procijeniti Prema tome, pravac regresije određen metodom najmanjih kvadrata ima jed- 


nadžbu y = 2,91z + 0,31. 
Rubovi intervala povjerenja za parametar a, pouzdanosti y = 0,95, na temelju 
formula (29), iznose 


6 
GEN oj.—*. 

| 1,21 + /9 
(21) i (35) 


dom vidi se da su one vrlo slične. Urnjesto koe- | što znači da se, s vjerojatnošću od 95%, može jamčiti da se nepoznati koeficijent 
ha n : i be z . . ag , .. . . « x 
a standardnu normalnu razdiobu, u (35) stoji ' regresije a nalazi u intervalu (2,46 ; 3,36). 


= 2,46 Đ g2 = 3,36, 
Usporedbom formula 


ficijenta 2, u (21), koji se 
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Slično se izračunavaju rubovi intervala povjerenja pouzdanosti 1 = 0,95 za 
parametar b. Na temelju formula (30) dobiva se gr = —1,30, go = 1,92. 

Formule (34) omogućuju da se izračuna interval povjerenja pouzdanosti 
y = 0,95 za vrijednost az + b regresijske funkcije za svaki z € R. Tako se za 
T = 2 dobiva 


0,69 M e 
9(2)=2,91.2+0,31— 2,36—> + (5 


2 
= 6,13 — 0,82 = 5,31, 
7 i 


92(2) = 6,13 + 0,82 = 6,95, 


što znači da se, uz rizik od 5%, može smatrati da funkcija regresije u točki z = 2 ima 
vrijednost unutar intervala (5,81; 6,95). Odgovarajuća širina intervala povjerenja 
je d(2) = 1,64. Za x = € = 3,37 dobiva se najuži interval povjerenja (9,58 ; 10,66), 
širine d(T) = d(3,37) = 1,08. 


Problem procjene nepoznatih parametara a, bi o* u modelu jednodimenzio- 
nalne linearne regresije može se rješavati i metodom najveće vjerojatnosti (v. VI.3, 
formule (36) i (37)). Ovdje se, naime, može £ = (a,b, o?) razmatrati kao nepoznati 
vektorski parametar koji varira po skupu 


8 = ((a,b,a") :a€ERbER,d > 0), 


dok se za funkciju vjerodostojnosti uzima 


n 


l 
(36) L(t) = (2r07)-? exp Sa 2 (ozi +b— yi) 
Rješavanjem sustava jednadžbi 
OL(t) 9 OL(t) 0 OL(t) 0 

da Ob Ja? 
poa,bi ao“, dobiva se 
(37) a=4=—2, b=b=7-az, 

S: 
(38) KE g i 
no u ' n 


Usporedbom (37) sa (4) i (5) vidi se da se procjene a i b nepoznatih parame- 
tara aib, dobivene metodom najmanjili kvadrata i metodom najveće vjerojatnosti, 


s . . 3. A : . . 
poklapaju. Procjene s? i 52, za nepoznati parametar o, razlikuju se samo u fak- 


toru ( l 
n — 


3 umjesto -), koji procjenitelj S? čini nepristtanim, dok odgovarajući 
1 


ML-procjenitelj 22, s vrijednostima 5, nije nepristran. 

Iz navedenoga je očigledno da je metoda najmanjih kvadrata općenitija od 
metode maksimalne vjerojatnosti, jer zahtijeva slabije pretpostavke (ne zahtijeva 
se normalna razdioba za greške £;). Osim toga MNK-procjenitelji, poput ML- 
-Procjenitelja, imaju mnoga dobra svojstva. Poznat je tzv.  Gauss-Markovljev 
teorem (v. XII.3), koji izriče da u klasi svih linearnih nepristranih procjenitelja 


i 
4 
Ž 


1 
i 
| 
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za parametre a i b, MNK- procjenitelji imaju najmanje varijance. Iz (7) i (8) se, 


naime, vidi da su A i B linearne kombinacije slučajnih varijabli Yi,...,Y,, tj. da 
pripadaju klasi linearnih procjenitelja, dlok (11) 1 (12) pokazuju da je riječ o nepris- 
tranim procjeniteljima, pa Gauss- Markovljev teorem jamči da su MNK- procjenitelji 
Ai B najefikasniji (v. VI.7) procjenitelji za parametre a ib, a također i da je Az+8B 
najefikasniji procjenitelj za az +b (z € R) u opisanoj Lfasi procjenitelja. 

Time je još jače opravdana primjena metode najmanjih kvadrata u regresijskoj 
analizi, jer se pokazalo da su MNK-procjenitelji najefikasniji procjenitelji u vrlo 
opsežnoj klasi linearnih nepristranih procjenitelja. 

Istaknimo još jedan važan praktični aspekt teorijskih rezultata dobivenih na 


temelju opisanih regresijskih modela. Određivanjem procjena a i b parametara a 


ib linearnog regresijskog modela moguće je, bar u načelu, procijeniti vrijednost 


regresijske funkcije uy(z) = az + b, za svaki s € R. Međutim, često u praktičnim 
zadacima postoje određena ograničenja na nezavisnu varijablu z (dopušteni su, re- 
cimo, samo pozitivni brojevi i sl.), tako da se postavlja zadatak procjene nepoznate 
vrijednosti ug(x) samo za # € A C R, gdje je A skup dopuštenih vrijednosti za 
iksove. Očigledno su a; € A(t=1,...,n)inekajeti < 22 <...< zn. Ako je 
riječ o procjeni vrijednosti N4(z), zati <2<z,, onda se govori o interpolaciji, a 
ako je riječ o procjeni vrijednosti regresijske funkcije wuz)zaz€Aiz<r,ili 
£ > Zp, onda se govori o ekstrapolaciji. 

Formule (20), odnosno (34), omogućuju da se uoči greška pri interpolaciji, 
odnosno ekstrapolaciji, iz čega se razabire da se točnost smanjuje udaljavanjem 
od središta Z podataka o nezavisnoj varijabli. Već to pokazuje da je ekstrapolacija 
delikatniji problem od interpolacije. Poseban oprez u primjeni ekstrapolacije nužan 
je i zbog toga što je linearnost modela, donekle, očigledna za zy < z < x, (to 
jamči grafički prikaz podataka), ali za z < zi iz > z, to više nije očigledno 
iz grafičkog prikaza podataka, tako da se primjena linearne ekstrapolacije mora 
opravdati nekim drugim spoznajama o promatranoj pojavi, a ne samo izmjerenim 
podacima (21,91),---,(Zn,Vn)- 

Osim Srableini> iUE polaelje 1 sata jnalacije regresijske funkcije, može se 
pola i problem primo vrjednosti Vr pi vni ia z, Za određenu vri- 


«o... 


parametre a i b ma el MNK. procjenama ai b, a slučajnu varijablu 
€: njenim očekivanjem E[€,] = 0, tako da je Yr = az + b prognozirana vrijed- 
nost izlaza (outputa), za ulaz (input) r. Odmah se postavlja i problem procjene 
greške prognoze. Prirodno je da se greška * mjeri" varijancom V[Az BDSbE zh 
pretpostavki dai modela i formule (48) u V.6. proizlazi 


V[Ar+B+€,] = z"V[A]+V[B]+V][£. H2eCov(A, B)+22Cov(A, £,)+2Cov(B, £.), 
odnosno . L..5 
(39) VAra pare jee- 1+n+ (277) | ' 


lako se nepoznata vrijednost regresijske funkcije ug(2) 1 nepoznata vrijednost 
Vr izlazne slučajne varijable X, procjenjuju istom veličinom Yx = az + b, greške 
tih procjena su različite. Slično kao što su izvedene forinule (34), mogu se, naime, 
izvesti (v. zad. 9) i formule za rubove g, i g» intervala povjerenja za nepoznatu 
vrijednost yr. Uzimajući u obzir rezultat izražen formulom (39), dobiva se 
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Zanimljivo je primijetiti da procjena vrijednosti y,, veličinom $y = ar + b, nije 
konzistentna u smislu definicije konzistentnosti iz VI.8, jer za n > oo varijanca 
VlAz +B+ €,]| > o". Stoga se i događa da za velike n širina intervala povjerenja 
(41) ne teži nuli, već pozitivnoj veličini 2s7.,, za razliku od širine intervala povjerenja 
(35), koja teži nuli za n —> oo. | 


3. Analiza rasipanja podataka 


Regresijski modeli, posebno modeli linearne regresije, vrlo se mnogo primje- 
njuju u istraživanjima, opisivanjima i tumačenjima različitih praktičnih fenomena. 
Zato nije čudo da su se razvili raznoliki pristupi i interpretacije teorijskih mode- 
la radi jasnijeg, lakšeg i boljeg razumijevanja proučavanih fenomena. Sada će se 


opisati jedan takav pristup. 
Polazeći od danog niza mijerenja (#1,91),...,(Zn,Vn) i odgovarajuće procjene 
Hi = az; + b nepoznate vrijednosti regresijske funkcije uy(zi) = az; +0, definira se 


(42) čr=y= 1, bj koa od 


što se zove reziduum (residual). Veličina £;, geometrijski interpretirana, pokazuje 


udaljenost između izmjerene vrijednosti y; i prognozirane vrijednosti fi; = az; +b 
(v. sl. 31). To je, dakle, razlika između izmjerene vrijednosti izlazne varijable i one 
vrijednosti ft; koja se može objasniti funkcijskom vezom između ulazne 1 izlazne 
varijable. Dio €; izlazne varijable (y; = fl; + £;) ne može se objasniti funkcijskom 
ovisnošću izlaza o ulazu, već potječe od <ljelovanja slučajnih faktora (slučajne greške 
ći): 


Imajući na umu (16) i (38), odinah se vidi da se može pisati 


J 


(43) sy = 7 


y 
9? s . ak ki Pug sake : od 
dok 6“ opisuje, kao što se vidi iz (38), rasipanje izlaznih podataka oko procijenjene 
regresijske funkcije. Uz nešto složeniji račun (v. zad. 6), dokazuje se da je 


Veličina s/ opisuje rasipanje izlaznih podataka (ipsilona) oko njihove sredine 7, 
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n < . 
i=1 i=1 


1 Bi g 
a =\2 _ V (aa; —\2 _ zy 
Kza (Hi — V) = ps (az; +b— 7) =; s2 , 


pa se vidi da se veličina 


(44) 3? = iu 


može interpretirati kao mjera rasipanja vrijednosti procijenjene regresijske funkcije 
(prognoziranih vrijednosti izlaza) oko g. U tom se svjetlu relacija (43), zapisana 
kao 


(45) s, == o? + 04, 


može interpretirati tako da se kaže da je rasipanje izlaznih podataka oko njihove 


aritmetičke sredine jednako zbroju rasipanja uzrokovanog regresijskom ovisnošću 
(funkcijom 2; > f;) i rasipanja uzrokovanog slučajnom greškom, tzv. rezidualnog 
rasipanja. Veličina 


Poso) Pos 


(46) R=A2-1-£ 
5y 5y 


zove se koeficijent determinacije. Očigledno je 
(47) Dane 
Za podatke iz 2. primjera nalazi se da je 
s ETIL, gadi = 


pa se iz (46) odmah dobiva odgovarajući koeficijent determinancije R2 = 0,97, što 
bismo protumačili tako da 97% rasipanja izlaznih podataka potječe od funkcijske 
ovisnosti z +> 2,912 + 0,31, a samo 3% otpada na rezidualno rasipanje, koje se 
ponegdje zove i neobjašnjeno rasipanje. Preveliko neobjašnjeno rasipanje obično 
upućuje istraživača na promjenu regresijskog modela, iako ono može biti i posljedica 
slabe koreliranosti između ulaznih i izlaznih podataka. 

Formula (46) može se, naime, zapisati i u obliku 


(48) R* = — 


iz čega se, usporedbom s formulom (27) iz 111.4, razabire da je koeficijent determi- 
nacije isto što i kvadrat koeficijenta korelacije za podatke (zi, Nijjensslđasv): 
Sada se možemo pitati uz koje uvjete se postižu krajnje vrijednosti 0 i 1 ko- 
eficijenta determinacije. Iz (46) se vidi da će R* = 0 biti za od =0,iliza 6? = ŠI 
Jedan i drugi uvjet impliciraju s», = 0, a to znači da su z; i y (i =1, sono) 
nekorelirani podaci (v. III.4. i 111.5). Regresijski pravac u tom je slučaju usporedan 
s apscisnom osi (a = 0), što upućuje na zaključak da ulazna (nezavisna) varijabla z 
ne utječe na izlaznu slučajnu varijablu X. Ukupno rasipanje izlaznih podataka je, 
zapravo, rezidualno rasipanje, jer se ništa od njega ne može objasniti funkcijskom 
vezom između z i X. Poznavanje ulazne vrijednosti # ne omogućuje da se bilo što 
novo kaže o pripadnom izlazu y,, što već ne bi bilo moguće reći i bez poznavanja z. 
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Drugi krajnji slučaj R% = 1 postiže se za 6% = 0. To znači da nema rezidualnog 
rasipanja i da ukupno rasipanje izlaznih podataka potječe od funkcijske ovisnosti 


između iksova (z;) i ipsilona (y;) oblika y = az; +b(t=1,...,n), pri čemu je 


nN9 . s . . . 
6“, u tom je slučaju i s = 0, pa se iz 


2 Šy .. . 2 U 
a“ = —5 #0. Budući da je s“ = 
s. n—-2 

(40) razabire da je tada gu(r) = go(z) = az +0 i d(z) = 0, što pokazuje da se s 
proizvoljnom pouzdanošću, recimo y = 0,99, može prognozirati izlazna vrijednost 
Yr = az +. i .. 

U statističkoj literaturi, posebno onoj u kojoj se uglavnom obrađuje primjena 
teorije statističkog zaključivanja, uobičajen je određeni način tabličnog prikazivanja 
analize rasipanja podataka. 


Tablica 2. 


Broj Zbroj 
stupnjeva | kvadrata 
slobode odstupanja 


Srednje Koeficijent 
kvadratno odstupanje | determinacije 


Izvor 
rasipanja 


regresijska 
funkcija 
(model) 


rezidualno 
rasipanje 
(slučajna greška) 


ukupno 
rasipanje 


Tablica 2. obično se zove tablica analize varijance u jednodimenzionalnome 
linearnom regresijskom modelu. Tablica analize varijance redovito se, inače, pri- 
mjenjuje u modelima analize varijance o kojima će biti riječi u nastavku. 


4. Testiranje hipoteza o koeficijentu regresije 


U 1.12. primjeru imali smo podatke koji su očigledno pokazivali da je riječ o 
linearnoj regresiji s regresijskim koeficijentom značajno različitim od nule, tako da je 
promjena nezavisne varijable prouzročila, preko regresijske funkcije, odgovarajuću 
promjenu izlazne slučajne varijable. Ako se, međutim, dobije mala apsolutna vri- 
jednost procjene a za nepoznati koeficijent regresije a, može se posumnjati da je 
stvarna vrijednost koeficijenta regresije zapravo nula, što bi značilo da regresijski 
model ima oblik 
(49) habe, rz m 
tj. da je izmijerena izlazna vrijednost y; zapravo neovisna o ulaznoj vrijednosti gi. 
Može se tada pisati 


u=b+rej, t=l,...,N, 
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1 reći da izlaz Vi nastaje kao zbroj konstante b i vrijednosti €; slučajne greške 
i  N(0,0*). U tom je slučaju | 


E[ M] = b , VIKI] == VI£;| = a2, 


iz čega se vidi da je regresijska linija pravac y = b, pase problem regresijske analize u 
tom slučaj u svodi na problem procjene nepoznatog očekivanja i nepoznate varijance 
slučajne varijable Y | N(b, a2), što je inače detaljno obrađeno u VI.4. 

Ostalo je, dakle, da se riješi prablem testiranja hipoteze Hg:a = 0 prema 
nekoj od alternativnih hipoteza (I:a #0, ili IH:ta < 0,ili Hjyra > 0). Budući da 
se problem bitno ne komplicira, rješavat će se zadatak određivanja test-statistike i 
kritičnog područja razine značajnosti a, pri testiranju hipoteze Hg:a = 49, prema 
alternativnoj hipotezi H,:a f do, gdje je ag zadani realan broj. Pretpostavlja 
se, dakako, da imamo niz od n (n 12) mjerenja (z1,y),..., (£n,Yn), na što se 
može primijeniti model jednodimenzionalne linearne regresije. To omogućuje da 
se iskoristi činjenica izražena formulom (27), što znači da u uvjetima istinitosti 
hipoteze IIy vrijedi | 
(50) ira 2 Z 2 Se vn t(n — 2). 


Slučajna varijabla Ti; iz (50) uzet će se kao test-statistika, što se može opravdati 
činjenicom da vrijednost 


(51) hi uva 


upućuje na odstupanje procjene q, dobivene na temelju danih podataka, od pret- 
postavljene vrijednosti ag koeficijenta regresije a. 

Odmah se zaključuje da će kritično područje razine značajnosti a biti određeno 
uvjetom 


(52) iza 


pri čemu je co (co > 0) određeno tako da u Studentovoj razdiobi san — 2 stupnja 
slobode vrijedi 


Piliiižto) =a; 


odnosno | 
1 i 

(53) co = Ga (1- 5) | 
U 1. primjeru imali smo a = 0,6, što bi nas eventualno moglo navesti na pomisao 
da testiramo hipotezu Hg: a = 0, prema alternativnoj hipotezi H,:a f 0, uz razinu 
značajnosti a = 0,95. Praktički bi to značilo da sumnjamo u postavku da se s 
porastom dobi povisuje krvni tlak, te postavljamo hipotezu da dob ne utječe na 
krvni tlak. 

Iz činjenice da jen = 100, s, = 12 i s = 5,7 dobiva se bi re 2 2 12. IO ze 
= 12,63. U tabl. V. u Dodatku ne može se odčitati C78 (0,975), ali se zna da se, 


za n > 30, Studentova razdioba t(n) niože aproksimirati standardnom normalnom 
razdiobom N(0, 1), tako da je G3g (0,975) a e-1(0,975) = 1,96, što pokazuje da 
je kritično područje (—09; — 1,96] U [1,96; 00). Očigledno je da dobivena Vrijednost 
li = 12,63, test-statistike T;, duboko upada u kritično područje i zato hipotezu Hy 
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treba odbaciti. Reklo bi se da navedeni podaci o krvnom tlaku osoba nikako ne 
opravdavaju hipotezu da krvni tlak (X) ne ovisi o dobi (2). x | 

U 2. primjeru dobili smo regresijski pravac s procjenom a = 2,91 za koefici- 
jent regresije a, pa bismo mogli testirati hipotezu Ho: a = 3, prema alternativnoj 
hipotezi Hi:a 7 3, uz razinu značajnosti a = 0,05. Sada jen =9,s, =1,21i 
s = 0,69, pa test-statistika Ti poprima vrijednost t, = Bag .1,21V9 = —0,47. 
Kritično područje testa određeno je vrijednošću co = G7! (0,975) = 2,365 (v. tabl. 
V. u Dodatku), a budući da je |ty| = 0,47 < 2,865, vidi se da vrijednost test- 
-statistike ne pada u kritično područje, što upućuje na zaključak da hipotezu Hy 
ne treba odbaciti. | a 

Problem testiranja hipoteze o koeficijentu regresije može se, dakako, postaviti 
i kao problem jednorubnog testa, gdje se testira hipoteza Hora = do, prema alter- 
nativnoj hipotezi II,:a > ao. U tom je slučaju kritično područje razine značajnosti 
a određeno uvjetom 


(54) bi PB G7l2(1 a). 


Uzme li se kao alternativna hipoteza II,:a < ag, kritično područje određeno je 


uvjetom | 
1-1 
(55) ti “e Cr, _o0(0). 


Tako, na primjer, testirao li na podacima iz 1. primjera hipotezu Hora = 0, 
prema alternativnoj hipotezi Il,:a > 0, uz razinu značajnosti a = 0,05, kritično 
je područje određeno uvjetom ti > Giga (0,95) = e-1(0,95) = 1,69. Budući da je 
li = 12,63, očigledno je da treba odbaciti Ha i prihvatiti H,, tj. zaključiti da su 
krvni tlak i dob povezani linearnoni regresijom s pozitivnim koeficijentom regresije. 

Upravo opisani postupak testiranja različitih hipoteza o koeficijentu regresije 
zasniva še na test-statistici Ti — t(n — 2) i njime je omogućeno provjeriti nul- 
-hipotezu Ho : a = ao, za proizvoljno ao € R. Sada ćemo opisati još jedan test kojim 
se, doduše, može testirati samo nul-hipoteza oblika Ho:a = 0, prema alternativnoj 
hipotezi H,:a £ 0. | 

Test se zasniva na test-statistici 


m2 42 
| + 620 2 
(56) V = (u — de = n8&, oz 


. . e . . .. : P9) 7 , RECI) 9 : .. sui 2 
gdje je 53 statistika s vrijednostima 0), a S" statistika s vrijednostima 6“. 


U uvjetima istinitosti hipoteze Hg slučajnoj varijabli V pripada F-razdioba sa 
(1,n — 2) stupnjeva slobode. Može se, dakle, pisati 


(57) Vo F(l,n—2). 
Da bi se obrazložilo (56) i (57) razmišljat će se ovako: Slučajna varijabla V 
.. : S 28 .. . kani po E : 19 . 12 ee * I: 
kvocijent je slučajnih varijabli šali X“, odnosno A* i 5%, za koje se vidi da su 
nastale kao sume kvadrata normalnih slučajnih varijabli, pa se, u skladu s rezulta- 
tima navedenim u točkama 5. i 8. iz V.6, može dokazati da je V slučajna varijabla 
F-razdiobe, što je izrečeno relacijom (57). 
Ako je hipoteza Ho:a = 0 stvarno istinita, onda se imože očekivati da će i 


vrijednost a procjenitelja A za nepoznati koeficijent regresije a biti vrlo blizu nule, 


i 
k 
3 
| 
| 
ad 
i 
E 
i 
i 


MORU OR RORU SUV TREE TVT UGO 
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pa će 1 vrijednost 


(58) v=(n—2) 


aK) 


o“ S 
test-statistike V iz (56) i (57) biti blizu nule. 

Dobije li se na danim podacima (z1,y1), ...)(Zn,Vn) prevelika vrijednost v 
test-statistike V, hipoteza Hy će se odbaciti. Prema tome, kritično područje razine 
značajnosti a bit će određeno uvjetom v > cy, gdje je Co određeno tako da vrijedi 


POV 520) sa 


Koristeći se tabl. VII. iz Dodatka, može se, u konkretnom slučaju, odrediti co 
primjenom formule | 


(59) co = Poi_o(1 09), 


gdje je Ff,_2 inverzna funkcija od f.r.v. za F-razdiobu sa (1,n — 2) stupnjeva 
slobode. 

Zanimljivo je da iz (51) 1 (58) slijedi da je tl = v pri nul-hipotezi Hy:a = 0, 
t). kvadrat vrijednosti test-statistike T; iz (50), kojoj pripada Studentova razdioba 
t(n — 2), jednak je vrijednosti test-statistike V iz (56), kojoj pripada F-razdioba 
F(l,n—2). To je, zapravo, posljedica općeg stavka izraženog relacijom (v. zad. 14) 


(60) T=tn) > V=T"_F(1,n), n>2. 


Sada jednostavno možemo, na podacima iz 1. primjera testirati hipotezu 
Ho:a =0, prema alternativnoj hipotezi Hy:a f 0, pomoću test-statistike V. Ma- 
loprije smo izračunali t, = 12,63, pa odrnah možemo zaključiti da je v = 12 a 160. 
Za a = 0,05 iz tabl. VII. u Dodatku dobiva se cg = F74g(0,95) A 0,96, iz čega se 
vidi da je ti > cy, što znači da vrijednost test-statistike i sada duboko upada u 
kritično područje [6,96; 00), pa hipotezu Hg treba odbaciti. 


Zadaci 


1. Izvedite rješenja, izražena formulama (4) i (5), kojima su definirane procjene 
za nepoznate parametre a 1 b u smislu metode najmanjih kvadrata. 


2. Dokažite formule (11), (12) i (13). 
3. Izvedite formule (20) za granice intervala povjerenja pouzdanosti y, za nepo- 
znatu vrijednost az + b regresijske funkcije. 
4. Izvedite formule (29), (30) i (34). 
. Dokažite da su formulama (37) i (38) izražene ML-procjene za nepoznate 
parametre a, b i o? jednodimenzionalnoga linearnog regresijskog modela. 
6. Dokažite da za veličine, definirane u XL.1.i XL.3. vrijedi: 


ca 


a) €=u—-y-a(m—7), 


b) pa E, ra 0, 


iz=1 
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12. 


2 
25 2 Šri 
mE Tag) Ma SM Ta y 

Che hE rear sje = na 


Niži ŠI 
d) 1 n či +-y) a d2s2 = Szy 
Nizi i: : sz 
. Dokažite da u jednodimenzionalnome linearnom regresijskom modelu vrijedi 
x a o? a 
a) Cov(A,YX;) = Cov(A, £;) = mz (ai =£), 
pa me o? KI _ 
b) Cov(B,Y;) = Cov(B,£;) = = [1 zla: > 29], 
pa 2 Bed. o? 
c) akoje Y = - E Y;, onda je Cov(A,Y) =0 i Cov(B,Y) = ira 
. Neka su Aj = NaM AN (q,B € Ri = 1,...,n) nepri- 
i=1 ri 


strani linearni procjenitelji (NL-procjenitelji) za nepoznate parametre a i b 
jednodimenzionalnoga linearnog regresijskog modela. 


a) Dokažite da se uvjet nepristranosti procjenitelja A1 i B, može zapisati u 
obliku 


n 


mE! Seed x Dar=10 l X mo= 
tel 


iz1 iz i=1 


b) Dokažite da zahtjev za minimalnost varijance procjenitelja A, i Bi im- 
plicira 


moe &=20-d-9). 


2 
NS: n 


. Izvedite formule (40). 
10. 


Dokažite da se test-statistika Ti iz (50), za testiranje hipoteze Ho:a = ay, 
može izvesti metodom primjene intervala povjerenja opisanom u VIII.7. 


. Načinite tablicu analize varijance za podatke iz: 


a) 1. primjera, b) 2. primjera. 
U priloženoj tablici z; označuje godišnji dohodak (u dolarima) po stanovniku, 
a y; postotak nepismenih među odraslim stanovništvom u određenoj afričkoj 


državi. 


a) Prikažite dane podatke točkama u pravokutnom koordinatnom sustavu. 


b) Nađite procjene a, bi s? za odgovarajuće parametre linearnoga regresij- 
skog modela. 
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13. 


c) Prognozirajte postotak nepismenih na razini nacionalnog dohotka od 200 
dolara i od 1000 dolara. Nađite pripadne varijance za te procjene. 


d) Odredite granice intervala povjerenja pouzdanosti 95% za nepoznati ko- 
eficijent regresije a. 


e) Ucrtajte u koordinatni sustav procijenjeni regresijski pravac i krivulje koje 
opisuju odgovarajući 90- postotni interval povjerenja. 

f) Načinite odgovarajuću tablicu. analize varijance. 

g) Testirajte, uz razinu značajnosti 9%, hipotezu da nacionalni dohodak ne 
utječe na postotak nepismenih. 


Podaci o ulaznoj i _ varijabli zadani su ovom tablicom 


23 
25 
27 


a) Nađite procjene a, bis? za parametre linearnoga regresijskog modela. 
b) Načinite odgovarajuću tablicu analize varijance. 


c) Testirajte hipotezu Hg:a = = 0, prema alternativnoj hipotezi Hi:a 2 0, 
primjenom test-statistika Ti i i V, uz razinu značajnosti a = 0,05. 


14. Dokažite relaciju (60). Uputa: Iskoristite rezultate točke 5, 7. 1 8. iz V.6. 
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Važniji rezultati regresijske analize 


Standardne 
pretpostavke 


Ki=an+b+ć, bEliensn 


. Ti su m vrijednosti neslučajne varijable 


Vrijednosti 
MNK-procjenitelja 


Svojstva 
MNEK-procjenitelja 


Plod: o PIBI=0, ia 
VIA) = o. V[B] = = (147 =) 


ns 


Wa -+- B] - 


SIE 
> 

R 

| 

B 
bh 
to 


E(Az + BJ s az +, 


Koeficijent 
determinacije 


Dodatna 
pretpostavka 


Posljedice 
dodatne 
pretpostavke 


a 


n—2 
2 


aa (n — 2) 


rubovi intervala povjerenja pouzdanosti 3 Za 


regresijski koeficijent asu gmz=a7F La 
Srvn 


rubovi intervala povjerenja pouzdanosti y za 
nepoznatu vrijednost az + b su 


i 
i 
i 
| 
i 
I 
i 
E 
U 


XII. Višestruka regresija 


1. Model višedimenzionalne regresije 


U svim regresijskim modelima razmotrenim u XI. poglavlju pretpostavljalo se 
da izlazna slučajna varijabla Y ovisi o jednoj ulaznoj (nezavisnoj) varijabli T, pa se 
prirodno nameće ren a se jon i istraže i modeli u kojima će izlaz Y ovisiti 
o više ulaznih varijabli z( (r € N). 

Prije nego što o 1 precizno ea model višedimenzionalne ili 
višestruke regresije (multiple regression), formulirat ćemo jedan konkretan primjer 
koji će poslužiti da se lakše i bolje shvate apstraktni pojmovi u vezi s tim modelom. 


1. primjer 


Osnovne sirovine za proizvodnju betona su cement, agregat (pijesak ili šljunak) 
i voda, pa o njima uglavnom ovisi tlačna čvrstoća, mjerena na betonskim kockama 
određene dimenzije, izrađenim po propisanim postupcima. Da bi se istražila ovis- 
nost tlačne čvrstoće Y o upotrijebljenim sirovinama (z(!) — količina cementa u 
kilogramima, £(?? — količina agregata u kilogramima i z(% — vodocementni faktor 
koji pokazuje omjer cementa i vode), načinjeno je n = 7 betonskih kocki od ra- 
zličitih mješavina sirovina i na svakoj je izmjerena vrijednost y;(t =1,...,7) tlačne 
čvrstoće u megapaskalima (MPa). Rezultati su prikazani u tabl. 1 


Tablica 1. 


Poznata je činjenica da je tlačna čvrstoća Y, u slučaju da se beton proizvodi 
po istoj "recepturi" (s ustaljenim udjelom pojedinih sirovina), slučajna varijabla 
za koju se obično pretpostavlja normalna razdioba. Zato ćemo reći da su izlazne 
vrijednosti y; posljedica djelovanja određene funkcijske ovisnosti tlačne čvrstoće Y 
o količinama z(1), #(2) i 2(5) sirovina i o slučajnoj komponenti (greški) €, koja u 
sebi uključuje brojne druge faktore koji također utječu na tlačnu čvrstoću, i za koju 
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vjerujemo da se podvrgava određenoj statističkoj zakonitosti. Jednadžba 
(1) Y = ud200,2(2),2(9) + £ 


usvaja se kao matematički model za opisivanje karaktera ovisnosti između tlačne 
čvrstoće betona i količina cementa, agregata i vode. Funkcija 


(200), 202), 209) 3 (200), 202), 2629) 


realna je funkcija triju realnih varijabli, određena vrijednošću parametra t € 6 (6 
je skup dopuštenih vrijednosti za parametar t koji je redovito vektorski parametar). 
Uzme li se, na primjer 


ne(z), z(2), (2) — auzd) + a9?) + a3) + a4 : 


bit će € = (a1,a2,43,a4) € R“, pa se prirodno nameće problem da se, na temelju 
podataka iz tabl. 1, odredi procjena € = (41,42,43,d4) za nepoznati vektorski 
parametar t, kao i procjene za odgovarajuće parametre slučajne varijable €. Time 
se dobiva konkretni matematički odnos koji omogućuje da se uoči priroda ovisnosti 
tlačne čvrstoće betona o udjelu pojedinih sirovina, što je i postavljeno kao glavni 
cilj istraživanja. 


Radi konciznijeg i jasnijeg formuliranja općeg modela višedimenzionalne regre- 
sije prikladno je uvesti vektorske i matrične oznake. Neka je, dakle, 
S oo .,20)) (r € N) r-dimenzionalna ulazna (neslučajna) vektorska Vari- 


jabla, pa će a, = = (20/,...,2 (7 (2) označivati i-tu (z = 1,...,n) vrijednost ulazne 
vektorske varijable, za koju je Yi pripadna vrijednost iEližne slučajne varijable 
Yi. Neka je, nadalje, z > 44(z), z € R', zadana funkcija određena vektorskim 
parametrom te R*(s€N) u neka su €; (_=1,...,n) nezavisne slučajne varijable 
s očekivanjem F[£;] = 0 i varijancom V[£;] = a* > 0, onda je, slično kao u XLI, 
relacijom 


(2) S ONE Ze X Mem 


definiran r-dimenzionalni regresijski models regresijskom funkcijom # > p+(2). 


I sada se može reći da je regresijskim modelom (2) opisana ona realna situacija 
gdje se smatra da je izmjerena izlazna vrijednost y; nastala zbog postojanja funk- 
cijske ovisnosti o ulaznoj vektorskoj varijabli x uz dodatak slučajne greške £;. 

Jednadžbom y = ug(z), općenito je određena neka apstraktna ploha u ("+ 1)- 
-dimenzionalnom prostoru R"*!, koja se zove regresijska ploha. 

Glavni je problem ičruesijske analize 1 u ovom slučaju, kao 1 u JEEnog men 
zionalnom slučaju, nalaženje dobrih procjenitelja za nepoznate parametre t i o? 
čije će se vrijednosti ti 52 računati na temelju danog niza i oo ak) 
= leme Bi U ovoj situaciji slučajnim uzorkom smatra niz(g1,Y1),...,(€n,Yn), 
gdje su zi, ...,€n vrijednosti ulazne (neslučajne) vektorske varijable, a YI, me 2 
međusobno nezavisne slučajne varijable za koje vrijedi 


(3) EY] = ug(m:), Viri] = o? u mea 


na 
FSI 
rd vl didi aan o a koda LN a da Rd ća Zo a a Ra a AB aaa la Šš a a či O Va a dai dk dak good ia O i ama da lj jada ikoji aa maki dla bio šor AAA čika obični 


o oka ai a žičani“ 
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Za određivanje procjene t nepoznatog parametra t regresijske funkcije Nt, 


primijenit će se i ovaj puta metoda najmanjih kvadrata. Treba, dakle, € odrediti 
tako da vrijedi | 
n n 

(4) min )_[y — #e(z:)]* = 3 Ilu — 1o(20)P 

tco izi tz=1 
Izražavajući se jezikom geometrije, svako mjerenje (z;,y;) može se interpretirati 
kao točka u (r + 1)-dimenzionalnom prostoru R"*!, pa se određivanje procjene 
t, u smislu metode najmanjih kvadrata, može shvatiti kao pronalaženje one plohe 
= Mi(2), u skupu svih dopuštenih regresijskih ploha, koja se najbolje prilagođuje 
izmjerenim podacima (z;,y) (i=1,...,n), tj. najbliža je odgovarajućim točkama 
prostora R"+! u smislu relacije (4). (Zbroj kvadrata udaljenosti točaka od te plohe 
je minimalan.) 

Odmah se, naravno, postavlja pitanje da li tako formulirani problem uopće ima 
rješenje, odnosno uz Rae dodatne pretpostavke postoji jednoznačno rješenje prob- 
lema. U prvom redu nužno je postaviti pretpostavke o regresijskoj funkciji, kojima 
se specificira tip funkcijske zavisnosti, iz čega će proizaći i dimenzija parametra t, 
te konkretizacija skupa € dopuštenih vrijednosti za parametar £. 

Osnovna podjela regresijskih modela jest na lznearne i nelinearne modele. 


2. Višedimenzionalna linearna regresija 


Najbolje proučeni model višedimenzionalne regresije jest onaj u kojem se pret- 
postavlja regresijska funkcija oblika 
(5) nz) = az) +ao22) +...+a,20), 


gdje su a1,...,ar konstantni realni brojevi (koeficijenti), pa se može reći da je 
iz=a= (ar: i .)4,) € R" vektorski parametar dimenzije r. 
Koristeći se pojmom skalarnog produkta vektora, možemo pisati 


(6) Mt(2) = ka(a) =az!. 


gdje az označava skalarni produkt vektoraaiz. Vektoria € R'iz € R' tretiraju 


s] 


se kao jednoredne matrice tipa 1 x r, pa oznaka a! označuje transponiranu matricu 


od s, a skalarno množenje vektora poistovjećuje se s matričnim množenjem. 
Pretpostavimo da je n > ri uvedimo još i oznake 


(7) Ye(ijeov)e. SEP 60 
Da. a 
(1) (2) (r) 
(8) X | 2 +2 "2 
el)oos$ 261) 
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Iz (7) se razabire da su Y (vektor izlaznih podataka) i € (vektor greške) 
n-dimenzionalni slučajni vektori s komponentama Y;, odnosno €; (tz = 1,...,n), 
a iz (8) se vidi da je X matrica sa n redaka i r stupaca, tj. tipa n x r, koja se zove 
matrica ulaznih podataka. 


Primjenom uvedenih oznaka regresijski model, s regresijskom funkcijom (5), 
može se zapisati u matričnom obliku 


(9) Y=aX!+€, 


gdje je X! transponirana matrica od X, a za slučajni vektor € vrijedi 


(10) E[£€] = 0, De = a1. 


(Z g je kovarijancna matrica s.vk. £). 


Time je izrečeno da je vektor očekivanja E[€] = (E[£1],..., E[£n]) nul-vektor di- 
menzije n (O je oznaka za nul-vektor), dok je kovarijancna matrica & g dijago- 
nalna kvadratna matrica reda n s članom o2 duž glavne dijagonale (I, je oznaka 
za jediničnu matricu reda n). U jednadžbi (9) vektori se tretiraju kao jednoredne 
matrice, tako da su Y i € matrice tipa I x n, dok je a matrica tipa 1 x r. 

Time je definiran r-dimenzionalni linearni regresijski model. 

Odmah primijetimo da se (r — 1)-dimenzionalni (r > 2) regresijski model s 
regresijskom funkcijom oblika 


(11) ka(2) = a2! +: +a,ia) ka, 

može tretirati kao r-dimenzionalni linearni regresijski model u kojem se uzima 
"= =1(f=1,...,n), tj. r-ti i matrice XX _iz (8) sastoji se od samih je- 
diče 


Sada se može pristupiti rješavanju glavnog problema, tj. određivanju proc- 


jenet =a za nepoznati parametar a, koja zadovoljava uvjet (4). Niz vrijednosti 
regresijske funkcije 
(ka(Z1),...>na(Zn)) =na(K)=aX 


može se, dakako, shvatiti i kao vektor iz prostora R", ovisan o vektorskom 
parametru (vektoru koeficijenata) a. Budući dajeiy =(9,...,Mn) E R", veličina 


2_[vi > na(2:))? 


i=1 


(12) ly — ra(K)l = 


izražava apstraktnu udaljenost (euklidsku distancu) između vektora yi ua(K) u 
prostoru R", pa se problem formuliran u (4) može shvatiti kao određivanje onoga 
vektora (vektorskog parametra) a = a € R'" za koji su vektor izlaznih podataka 


y € R' i vektor Ka(XK) (ovisan o ulaznim podacima) najbliži, tj. njihova euklidska 
distanca je najmanja. 


E eV RI RONE NO REPER JR LIJI:I 


sakao Bb daćić 


a o di a ia saa dd ČE ol da daš 


XII.2 Višedimenzionalna linearna regresija 295 


Shvati li se svaki stupac matrice X iz (8) kao n-člani niz (22), <.) 2989)) = a2), 


tj. kao vektor iz prostora R" (zU) € R",j=1,...,r), može se pisati 


(13) na(K) =aX1=az0+...+a,20), 


što znači da se svaki vektor ua(-X) € R" (a € R") može prikazati kao linearna 
kombinacija vektora #(1),...,z") € R". Ako su vektori #(1),...,g(") linearno 


nezavisni, onda oni razapinju r-dimenzionalni podprostor L, u prostoru R", pa se 
problem iz (4) može formulirati i kao traženje onog vektora n2(XK) u potprostoru 
L, (hiperravnini u R") koji je najbliži vektoru izlaznih podataka y. Geometrij- 
ski zor nas upućuje na to da je to onaj vektor u2(X) € L, koji se dobiva kao 
ortogonalna projekcija vektora y na hiperravninu L, (v. sl. 34). Tada je vektor 


yv—nal(X) -v-aX! e R" 
okomit na svaki vektor potprostora L,, pa mora vrijediti 
u-aX')a)=0, jeba, 
što se u matričnom obliku zapisuje kao 
(14) u-aX')X =0, 


gdje je O nul-vektor dimenzije r. 


Slika 34. Skica odnosa vektora y, nez(X) i y— nz(X) 


Budući da su po pretpostavci #41)... (€) linearno nezavisni vektori, što za- 
pravo znači da između ulaznih varijabli #(1/,...,2(€) ne postoji linearna zavisnost 
(ne može se nijedna od njih eliminirati tako da se izrazi kao linearna kombinacija 

' bt đ: ' T 
preostalih), to je simetrična kvadratna matrica r-tog reda B = X X regularna 


-!, Jednadžba (14) 


matrica (det B £ 0), što znači da postoji inverzna matrica B 
može se sada pisati 


(15) uX-aX X =yX-aB-=0, 


odnosno 
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(16) d=yKB“=y9X(X1X)": 
Formulom (16) riješen je problem nalaženja MNK-procjene a vektorskog para- 
metra a r-dimenzionalnoga linearnog regresijskog modela (9). 


Zanimljivo je da se isti rezultat dobiva (v. zad. 4) primjenom diferencijalnog 
računa na određivanje minimuma funkcije 


n 


n 
nE »_lvi — na(z0)V = A (vi —ati—>...—a,2)*, ae, 
iz1 


i=1 


pri čemu se problem svodi na rješavanje sustava jednadžbi 


(17) z S (a2? —...—a,20)? =0, PEN zanio 
ze iz1 


Tako smo, zapravo, postupili u XI.1, gdje je obrađen regresijski model koji se može 
shvatiti kao specijalni slučaj r-dimenzionalnoga linearnog regresijskog modela za 
r=2 (v. zad. 2). 


Primijenimo li linearni regresijski model na problem iz 1. primjera, vidimo da 
jer=4,n =", y = (29,0; 30,5 ; 33,8 ; 37,5; 39,8 ; 41,8 ; 42,3) | 


200 2123 0,600 1 

220 2090 0,560 1 

250 2060 0,510 1 

X =| 280 2014 0470 1 

300. 1993 0,450 1 

320 1967 0,430 1 

350 1926 0405 1 

Sada se može izračunati: 
544200 3865000 917 1920 
T 3 865000 28731000 6964 14170 
B=X X = 917 6 964 1,7 34 [> 
1 920 14 170 3,4 7 
a zatim 1 

0,03 0,021 1,634 —51,993 
B-! 0,021 0,017 _0,186 —39,467 
— 1,643. —0,186 1446 —779,222 


—51,993  —39,467  —T779,222 94590 
te, prema (16),1 


a=yX B' =(0,111;0,058;—47,28; —89,022). 


| 
| 
| 


oi oak pa it  ME S  aaai č  Šojaadačt AK  i b 


| 
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Vidimo da su | 
a=titit, E0058. 1 =—1728.. Gt; =::88022 


MN K-procjene regresijskih koeficijenata di, 42, 43 1 a4 u linearnome regresijskom 
modelu, tako da pripadna procjena regresijske funkcije glasi 


na(20),202),2(%) = 0,111 20) + 0,058 2%) — 47,28 2%) — 89,022. 


3. Gauss-Markovljev teorem 


Već su pri razmatranju jednodimenzionalnoga regresijskog modela istaknuta 
dobra svojstva metode najmanjih kvadrata za procjenu nepoznatih parametara, 
što naravno vrijedi i za višedimenzionalnu linearnu regresiju. Posebno je važno 
svojstvo koje se obično izriče kao Gauss-Markovljev teorem. 

Primijetimo najprije da iz definicije r-dimenzionalnoga linearnog regresijskog 
modela slijedi da se vektor a iz (16) može shvatiti kao vrijednost vektorskog proc- 


jenitelja A = (A1, Me sA) za nepoznati vektorski parametar a = (d1,...,ar), pa 
se može pisati neo 
(18) A=YXB'!=YX(X!X)!, 


nn 


iz čega se razabire da je procjenitelj A izražen kao linearna funkcija izlaznoga 
slučajnog vektora Y'. To, nadalje, znači da se može pisati 


ka 
(19) Aja x Bk. A Op 
iz1 : 


gdje je Bi; element u i-tom retku i j-tom stupcu matrice X B-,ito je neslučajna 
veličina. Zato se može reći da je slučajna varijabla Aj izražena kao linearna kom- 
binacija slučajnih varijabli Yi,...,Yn S koeficijentima Bjla=1,...,n). To za Aj 
opravdava naziv lznearni procjenitelj, jer se iz (19) vidi da je statistika Aj linearna 
funkcija slučajnog uzorka. Također se za slučajni vektor A kaže da je linearni 
procjemitelj za vektorski parametara. 

Sada se, naravno, postavlja zadatak da se ustanovi veza između vektora 
očekivanja E[A] = (E[A:],..., E[A,]) i E[Y] = (EMm],...,[Yx]), te odgovarajućih 
kovarijancnih matrica 24 i E y (v. V.5). Uzme li se u obzir (7), (8), (9) i (18). 
može se pisati 


Pai 


EA] = E(aXT+£)XB-]=aX" XB +EE]XB", 
štozbog X X-Bi (10) postaje 


(20) F[A] =a, 
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esh- == === = 


pa se može reći da je slučajni Veltol A = (A ss) nepristrani procjenitelj za 
vektorski parametar a = (a,,.. ag). 

Vidimo da je slučajni vektor: A linearan i nepristran procjenitelj za vektorski 
parametar a, pa se kaže da je on LN-procjenitelj. 

Polazeći od (9) i (10), te formula navedenih u zad. 22. iz V. poglavlja odmah 
se vidi da je | 


(21) 2v=že=o1, 


Primjenjujući, pak, formule i iz zad. 23. u V. poglavlju, na slučajni vektor A iz 


(18), dobiva se | 
(22) X,=(X B') y(XB-)=0B", 


jer je (KB)! = (B-)' X' = 


simetrična matrica). 


(BJĆIXI=B!X! (B=B!' jaje B 


Iz (22) se vidi da je varijanca procjenitelja Aj nepoznatog parametra a; 
(23) DLA = o? bj j=1../7, 


gdje je bj; dijagonalni element matrice B“' 


Odmah se može postaviti pitanje da li je procjenitelj Aj najbolji, u smislu da 
ima najmanju varijancu, u klasi svih LN-procjenitelja za nepoznati parametar aj. 
Odgovor na to pitanje, i još više, daje nam Gauss-Markovljev teorem (GM-teorem). 


Pretpostavke: 


1 Y =aX!+E€ je r-dimenzionalni linearni regresijski model za koji je 
B=X!X regularna matrica. 

2. A = (A1,...,Ar) je MNK. procjenitelj za nepoznati vektorski parametar 
G= (issa) 
a = (ći, a 

4. ne = aE! = ali + 
ćecR 


Tvrdnja: 
Slučajna varijabla Gans 


u € R' je prbizvoljni r-dimenzionalni vektor. 


me + apćr je vrijednost regresijske funkcije u točki 


(24) 


je najbolji linearni nepristr ami procjenitelj (NLN-procjenitely) za veličinu 
una(€) u smislu da je 


A€J<VITE) 


(25) Vino a S 


za svako € € RV" i svaki LN- procjenitelj 7 T = MLJ 
lari =a 


..,T,) za vektorski parame- 


E? 
HE: 
d 
E-| 
KG. 
F- 
E 
ZA 
E: 
E: 
E 
E 
EI 
Š 
E 
E, 
ž 
A 
A 
sa 
E! 
i 
4 
j 
| 
2 
Ž 
3 
| 
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.,0), dobiva se ua(€) = a, i GM-teorem 


tvrdi da je A, nepristrani linearni procjenitelj za parametar a1, s najmanjom vari- 
jancom, tj. NLN-procjenitelj. 


Uzme li se, na primjer, € = (1,0,.. 


Slično se može uočiti da je Aj (rt Mas 
aj. 
Očigledno je daje us (€) iz (24) linearan procjenitelj, a odmah ćemo dokazati 


r) NLN-procjenitelj za parametar 
da je i nepristran. To, naime, slijedi neposredno iz (20) i formule u zad. 23a iz V. 
poglavlja, jer je 

(26) E[n3 (€)] = E[A € J=E[A]€! =a€! = na(ć). 


Ostalo je još da se dokaže valjanost relacije (25). Linearnost procjenitelja T 
izražava se jednadžbom 


(27) T=YC, 
gdje je € proizvoljna realna matrica tipa n x r. Uvjet nepristranosti vektorskog 
procjenitelja T, tj. Jednadžba E(T] = a, može se, imajući na umu (9) i (10), 


zapisati 1 kao 


EY C]=EYI]C=ElaX!+&8C=aX C-=a, 


odnosno kao 
(28) X'C-I,, 
gdje je I, jedinična matrica r-tog reda. 

Cilj nam je dokazati nejednakost 


VITE']- VIA£']>0 


To će se postići na taj način što će se dokazati da je VIT £1] — VIA E] varijanca 
slučajne varijabla ZE!, gljejeZ=T-A=Y(C — XB") Stavimo 


(29) Q=C-XB“'>C=Q+XB", 
pa je 
Z=YQ. 
Primjenom formule iz zad. 24. u V. poglavlju dobiva se 
VIA€ 'I=£8.€ 
(30) VITE I=£€54€ 


T T 
VIZE l=&£*z€ 
Kovarijancna matrica & < izražena je u (22), pa ostaje da se nađu izrazi za > 1 


27.12 (27) 1 već spomenute formule u 23.b zadatku u V. poglavlju, proizlazi 


(31) 2 =C0 2yC=(zbog 21))=aC! 0. 
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Slično se izvodi 
(32) 57=90 2vqQ=,Q "Q-=d(C01C-B“). 


Transponiranjem jednadžbe (28) dobiva se, naime, da je c! X = I,, a iz (29) 
proizlazi da je 


Q'Q=(C'-B"X'\C-XB")= 
=0'C-B"'(X"C)-(CTX)B-'+B-(X"X)B|=C1C_-B-. 
Na temelju (22), (30), (31) i (32) može se pisati 
VIE 1-VAg I =€ (25-2.) €" = 
= €o(C'C-B-)JET =E€Xz€ =VIZEN>0, 


i time je u potpunosti dokazan GGM-teorem. 
Iz prve Jednadžbe u (30), te (22) i (25) odmah se dobiva formula 


(83) Vina (E) = o*€B €, 


koja pokazuje ovisnost varijance NLN-procjenitelja Ka(£) za nepoznatu vrijednost 


Ka(6) regresijske funkcije u točki € € R" o nepoznatom parametru 7. Stoga se 
prirodno nameće zadaća da se pronađe dobar procjenitelj za parametar o“. Može 
se dokazati (v. XII.6) da je statistika 


1 n 
(34) E 2% M i (zi)l 


nepristrani procjenitelj za nepoznati parametar o, tj. da vrijedi 


(35) o ETA 


4, Tablica analize varijance 


Kao što smo u X1.3. opisali analizu rasipanja izlaznih podataka u jed- 
nodimenzionalnome linearnom regresijskom modelu, može se isto učiniti i u 
r-dimenzionalnome linearnom regresijskom modelu. Uvedu li se oznake 


(36) Vi =M=pualzi), E=Wu—1l, Lezelok as jote, 
reći ćemo da je i; procjena vrijednosti izlazne slučajne varijable u točki 2; € R', 


dok je ći režiduum, sa značenjem razlike između izmjerene i procijenjene vrijednosti 
izlazne varijable u toj točki. Zato se veličina 


| 


aLL Do la ačk šte) Zvan sak E o RAS ža a ai VV JA SaN ai 


anata ad a ati Va De dtd LA a i Rk ČA. tad a ae naša ca oč td JE Oh S aut uo ača Raš UP, 


Paar 


i 
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n n 


be s: Su — U)“ = no“ 


tel i=1! 
zove zbroj kvadrata grešaka, a veličina 


n 


>> =a; 


iz1 


zove se regresijski zbroj kvadrata, dok se veličina 


i=1 


no 
Dr =ns; 


zove ukupni zbroj kvadrata odstupanja od aritmetičke sredine izlaznih podataka 
_ 1 n : 
(=: 22.) 

N i=1 


Opet se dokazuje (v. zad.6) da je 
(37) s = + o ; 


što omogućuje da se definira koeficijent determinacije 


Mead NARA sd 
(38) ne e 


sa značenjem opisanim u X1.3. 

Ovako definiran koeficijent determinacije može dati i krivu sliku o stvarnom 
odnosu rasipanja uzrokovanih regresijskom ovisnošću i slučajnom greškom, posebno 
kada broj n podataka nije mnogo veći od broja r kontroliranih varijabli. Kada 
bismo, na primjer, imali n = 21ir = 2, t). dvije različite točke u ravnini, tada je 
jasno da će kroz te točke prolaziti procijenjeni regresijski pravac, tako da će biti 
0* = 0, pa stoga R* = 1, što bismo interpretirali tako da je ukupno rasipanje 
prouzročeno regresijskom funkcijom. No, očigledno je presmiono, na temelju samo 
dva podatka, uzeti dobiveni pravac kao stvarnu krivulju regresije. Zato se, pri 
relativno malom broju podataka n, u odnosu na dimenziju r regresijskog modela, 
definira tzv. korigirani koeficijent determinacije 


ki a. sei 
39) PDT 2 (34 4) = (n — 1)o* 
( še 1 n kdo m (n — r)s? 
= > (ii — 79) Ž 
N. i=1 ' 


Da bismo objasnili definicijsku formulu (39) primijetimo da se ona razlikuje 


od definicijske formule (38) po tome, što su umjesto vrijednosti 5% i si pristranih 


procjenitelja za nepoznate parametre o* i ay (g, je teorijska vrijednost varijance 


. oi B . x > od 
izlazne varijable) uvrštene vrijednosti. : : 


s“ odgovarajućih 
MEK (A ke 4 
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nepristranih procjenitelja. Govori se da postoji n — r stupnjeva slobode za formi- 
ranje rezidualnog rasipanja 6“, jer je potrebno r različitih točaka (podataka) za 
određivanje r nepoznatih parametara (koeficijenata) regresijske funkcije, pa ostaje 
n — r slobodnih podataka za oblikovanje rezidualnog rasipanja. Na sličan način se 
objašnjava da za formiranje ukupnog rasipanja (s4) postoji n— 1 stupnjeva slobode, 
jer od ukupno n podataka ostaje slobodno njih n — I za formiranje rasipanja oko 
aritmetičke sredine 7. 


Za podatke iz 1. primjera dobili bismo si = 23,98 i 6% = 0,31, pa koeficijent 
determinacije, prema (38), iznosi R2 = 0,987, dok korigirani koeficijent determi- 
nacije, prema (39), iznosi R2 = 0,974. 

Dobiveni rezultat interpretira se tako da se kaže da je 97,4 % rasipanja izlaznih 
podataka uzrokovano regresijskom funkcijom, dok se samo 2,6 % preostalog (re- 
zidualnog) rasipanja ne može objasniti usvojenim regresijskim modelom. To bi 
upućivalo na dobru prilagodbu modela danim empirijskim podacima. 

Pregledan i jasan uvid u rasipanje izlaznih podataka, slično kao i u jednodi- 
menzionalnom modelu (v. tabl. 2. u XI.4), omogućuje tablica analize varijance. 


Tablica 2. 


Broj Zbroj | 
stupnjeva | kvadrata 
slobode odstupanja 


Koeficijent 
determinacije 
(korigirani) 


Izvor 
rasipanja 


Srednje 
kvadratno odstupanje 


model 


“ 
+ 


slučajna greška 


ukupno 
rasipanje 


Tablica 3. | 


Za konkretne podatke iz 1. primjera rezultati su prikazani u tabl. 3. 
Ukupno rasipanje 167,87 0,987 (0,974) 
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5. Intervali povjerenja za regresijske koeficijente 


Primijetimo najprije da su svi dosadašnji rezultati u vezi s r-dimenzionalnom 
linearnom regresijom izvedeni na temelju modela izraženog formulom (9) i uz tzv. 
standardne pretpostavke: 


. Matrica ulaznih podataka XX ima rang r (r < n), što znači da ne postoji 

linearna zavisnost između ulaznih varijabli. 

2. Vektor očekivanja slučajnog vektora € je nul-vektor, što znači da je očekivana 
vrijednost izlazne varijable jednaka vrijednosti regresijske funkcije. 

3. Disperzijska matrica slučajnog vektora € dijagonalna je matrica s članom co 

duž glavne dijagonale, što znači da su greške nekorelirane slučajne varijable 

sa zajedničkom disperzijom g“. 


2 


Da bi se dobili i određeni rezultati, pomoću kojih se ocjenjuju greške pri 
procjeni nepoznatih parametara r-dimenzionalnoga linearnog regresijskog modela, 
potrebno je usvojiti i dodatnu pretpostavku: 


4. Slučajni vektor € podvrgava se n-dimenzionalnoj normalnoj radiobi (v. V.5), 


kojoj je n-dimenzionalni nul-vektor O vektor očekivanja i o2€,, kovarijancna 
matrica. | 


Iz te dodatne pretpostavke i formule (9) odmah slijedi da slučajnom vektoru 
Y pripada n-dimenzionalna normalna razdioba s vektorom ua(XK) = a X"! kao 
vektorom očekivanja i matricom o21,, kao kovarijancnom matricom. 

Formula (18) pokazuje, pak, da je vektorski procjenitelj A, za nepoznati 
parametar a, promatranog r-dimenzionalnoga linearnog regresijskog modela, li- 
nearno ovisan o slučajnom vektoru Y, što zajedno s dodatnom 4. pretpostavkom 
implicira da slučajnom vektoru A pripada r-dimenzionalna normalna razdioba s 
vektorom očekivanja E[A] = a (v. (20)) i kovarijancnom matricom 24 —oB"/' 


(v. (22)). To znači da komponenti Aj (j =1,...,r) pripada normalna razdioba 
N(aj,05), gdje je aj = o7bj; (v. (23)). 

Dobiveni rezultat pokazuje nam da vrijednost aj, MNK-procjenitelja Aj za 
nepoznati regresijski koeficijent aj, možemo shvatiti kao vrijednost slučajne vari- 
jable koja se rasipa po normalnoj razdiobi oko a; uz varijancu oj. 

Cilj nam je odrediti interval povjerenja zadane pouzdanosti y za nepoznati 
parametar aj, ali se pritom pojavljuje teškoća zbog činjenice da gj ovisi o nepoz- 
natom parametru o“. Ako je n (broj podataka) dovoljno velik, onda se a može 
zamijeniti vrijednošću s* pripadnoga nepristranog procjenitelja S? iz (34). Stavimo 


(40) a Sto JEL; 


pa ćemo uzeti da približno vrijedi 
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iz čega proizlazi da će granice intervala povjerenja pouzdanosti y, za nepoznati 
regresijski koeficijent aj, biti izražene formulama 


(41) ssa, GE kagsihea 


gdje je 2, objašnjeno u VII.1. (tabl. 1). 
Ako se ne oslanjamo na pretpostavku o velikom broju n podataka, onda ćemo 
poći od činjenice (v. XII.6) da 


Aj —aj 


42 ie 
( ) J S bjj 


et(m—r), JE lado: 


iz čega proizlazi da su granice intervala povjerenja pouzdanosti y, za regresijski 
koeficijent aj, izražene formulama 


(43) get), = ljnsT: 


gdje je T, veličina koja se odnosi na Studentovu razdiobu t(n—r) sa n—r stupnjeva 
slobode (v. tabl. 4. u VII.2). 

Da bismo primijenili izvedene rezultate na situaciju iz 1. primjera, primijetimo 
najprije da iz matrice 1B, izračunane u XII.2, odčitavamo 


hrs0bx t2=0017, kre, t,=284550. 
Izračunaju li se Pijao v(t=1,...,7), prema formuli (36), odmah se može 
izračunati i s = — Ku - 9)“ = i 16 = 0,72 (s = 0,85). 
3 t=l 


Sada možemo, uz MNK-procjenu aj regresijskog koeficijenta aj, upisati 1 pri- 
padnu procjenu 6; standardne devijacije gj. 


ZERRNEREN 
0,111 —47,28 | —89,02 
0,146 | 0,109 260,7 


Iz tabl. 4. vidljivo je da su uz procjene svih regresijskih koeficijenata vezane, 
relativno vrlo velike, standardne devijacije, što svakako upozorava na oprez pri 
korištenju dobivenoga regresijskog modela. Greške procjena još se bolje uočavaju 
pomoću odgovarajućih intervala povjerenja pouzdanosti y = 0,95 (Tr, = 3,18), 
izračunanih na temelju formula (43). 

Očigledno je da smo dobli vrlo široke intervale povjerenja, zbog toga što je 
broj mjerenja n = 7 jako malen i stoga se mora računati s vrlo velikom mogućom 
greškom pri procjeni nepoznatih regresijskih koeficijenata. 

Kao što se u jednodimenzionalnome regresijskom modelu prirodno pojavio 
problem interpolacije i ekstrapolacije regresijske funkcije, analogni se problem može 


Tablica 4. 
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Tablica 5. 


postaviti i u modelu višestruke regresije. Gauss-Markovljev teorem jamči nam da 
je vrijednost 


(44) nala) = 4120 4+.,.+8,20,  zeER", 

najbolja procjena za nepoznatu deo ua(z) regresijske funkcije u r-dimenzio- 
nalnome linearnom regresijskom modelu. Formula (33) omogućuje uvid u varijancu 
pri spomenutoj procjeni, gdje se opet pojavljuje nepoznati parametar 02, koji se za 
velike n može zamijeniti vrijednošću s* pripadnoga nepristranog Side ainitelj a S? iz 
(34). Označimo tu varijancu sa 52, pa se može pisati 


(45) 62 882B" 


Ako bismo u 1. primjeru uzeli (0) = — 230, #(2) = 2050, 2) =0,55iz(4) =1, 
primjenom (44) i već izračunanih procjena d1,d2,43 1 4 regresijskih koeficijenata. 
dobili bismo procjenu 


12(2) = 0,11 +230 + 0,058 - 2050 — 47,28 - 0,55 — 89,02 = 29,4 


za odgovarajuću vrijednost regresijske funkcije. To je, dakako, i najbolja prognoza 
za vrijednost izlazne slučajne varijable, što praktički znači da možemo očekivati 
tlačnu čvrstoću od 29,4 MPa na betonskim kockama izrađenim po recepturi: 


230 kg cementa, 2050 kg agregata, 0,55 vodocementni faktor. 


U ovom primjeru ne smijemo primijeniti formulu (45) za procjenu pripadne vari- 
jance, jer imamo premali broj podataka (n = 7). 

U slučaju dovoljno velikog broja n podataka može se uzeti da slučajnoj vari- 
jabli u<(z), približno pripada normalna razdioba N(ua(z),52), što omogućuje 


1 određivanje intervala povjerenja, zadane pouzdanosti y, za nepoznatu vrijednost 
regresijske funkcije ua(q )- 

Relacija (42) omogućuje i ientit anje testa za testiranje hipoteze 
Ho : dj = a9, prema alternativnoj hipotezi H,:aj ao (ilia; < a9, ili aj > a9), 
gdje je ao zadani realan broj. Slučajna varijabla 1; iz (42) uzet će se kao test- 
statistika, jer je očigledno da vrijednost 


(46) j= LE = 


S /bjj 4 


pokazuje odstupanje procjene 4;, dobivene na temelju danih podataka, od pret- 
postavljene vrijednost ag regresijskog koeficijenta aj. 
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| 


Kritično područje, uz alternativnu hipotezu Hi, :aj a9, određeno je relacijom 


6l> Gz2(1- 2) > 


gdje je GZ1, inverzna funkcija za f.r.v. hikvadrat-razdiobe sa n — r stupnjeva slo- 
bode. 
Uzme li se kao alternativna hipoteza. Hi :aj < ag, kritično područje određeno 


je nejednakošću 
DG SU —a), 


dok je uz alternativnu hipotezu Hi : aj > ao, kritično područje određeno nejed- 
nakošću 


b < Oza 0). 

Pogledamo li tablice 4. 1 5. nameće nam se ideja da testiramo hipotezu 
Ho: dr = 0. prema alternativnoj hipotezi Hy : a, # 0, uz razinu značajnosti 
: : kla ' 
od, recimo a = 0,10. Prema (46) dobivamo tl = >> <= 0,760, dok je 


0,146 
G3 (0,95) = 2,353, pa se vidi da hipotezu Ho treba ia kiti 
To S ralkaski znači da nam dani podaci sugeriraju zaključak da tlačna čvrstoća 
betonskih kocki ne ovisi o količini cementa u primijenjenoj recepturi za proizvodnju 
betona!? Svaki će tehnolog betona primijetiti da tu nešto nije u redu. 
No, to i nije kraj neobičnim rezultatima.  Provedimo postupak testiranja 
hipoteze Hy : a; = 0, prema alternativnoj hipotezi H, : aj # 0, za sve regresij- 
ske koeficijente (j = 1,2,3,4). Rezultati su prikazani u tabl. 6. 


Tablica 6. 


Vidimo da je u svakom slučaju |t;| < Ga (005) = 2950 (3 = 12,34), Sto 
znači da svaku od navedenih nul-hipoteza treba prihvatiti, jer vrijednost odgo- 
varajuće test-statistike uvijek pada izvan kritičnog područja. 

Došli smo do praktički apsurdnog zaključka da tlačna čvrstoća betonskih kocki 
ne ovisi ni o količini cementa, ni o količini agregata, ni o vodocementnom faktoru. 

Objašnjenje se mA u činjenici da se nalazimo u tzv. nestabilnoj situaciji, 


gdje je det B = det(.X E) blizu nule. To, pak, znači da gotovo postoji linearna 
veza među ulaznim varijablama. I zaista pogledamo li tabl. 1. vidimo da vrijedi 


2D 4 242) 2 2300 


i=1,2,3,4,5,6,7. 
25) + 100 2(% 2 760 

No, u uvjetima postojanja linearne veze imeđu ulaznim varijablama je 
det B = 0, matrica B nije regularna i ne postoji B-', pa ne postoje ni MNEK- 
-procjene regresijskih koeficijenata. U nestabilnoj situaciji oni doduše postoje, ali ne 
odražavaju stvarni utjecaj pojedine ulazne varijable na vrijednost izlazne varijable, 


d 
i 
i 
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aj. Dj I rad. die > SE 


lako se procijenjena regresijska funkcija dobro prilagođuje danim podacima, što se 
vidi preko odgovarajućeg koeficijenta determinacije (v. XII.4). 


6. Fundamentalni teorem 


Važan teorem, na kojem se temelje mnogi teorijski rezultati (formula (42) i 
dr.) i praktični postupci višestruke linearne regresije, glasi: 


Ako su ispunjene standardne pretpostavke 1 — 3. i dodatna pretpostavka 4. 
(v. XII.5) u #-dimenzionalnome linearnom regresijskom modelu, onda slučajnoj 
varijabli 


Iz ovoga odmah proizlazi da je 


2 4 
n—r 


(47) E[S']=6, V[S%] = 


što pokazuje da je statistika S“* nepristran i konzistentan procjenitelj za nepoznati 
parametar o“. To opravdava postupak da se za velike n (n >> r) uzima da je 


(48) e 


= 


Primijetimo da se prva formula u (47) poklapa sa (35), pa ćemo najprije 
pokazati da se nepristranost procjenitelja 5% može dokazati i bez dodatne pret- 
postavke 4. 


Primjenjujući aparat linearne algebre najprije ćemo pokazati kako se zbroj 
q = >lu — ua(2:))\“ is 
i= 
Ee 
Budući da su stupci matrice X linearno nezavisni vektori #4) € R" (j = 


=1,...,7), postoji takva ortonormirana baza €;,...,€r,...,€n u R" da se svaki 
zU) može prikazati kao linearna kombinacija baznih vektora €1,...,€6,. Stoga se 
J 1, Er 


(48) može transformirati u zbroj od n — r kvadratnih 


r , 
i vektor u = X ajzb) (a; € R) može prikazati kao linearna kombinacija istih 
= 
baznih vektora, tj. može se pisati 


(49) u=2X_ajej, GER; JELoasti 


j=i 


PERES 
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Vektor y € R" može se, također, prikazati kao linearna kombinacija baznih 
vektora €1,...,€n Pa pišemo 


(50) y=) Be, DE Re T=, 
i=1 
Primjenjujući oznaku || + || za euklidsku normu (apstraktnu duljinu) vektora, 


možemo pisati 


r 


(51) [ly — ul = [13 /(B; — aj)ej + 32 Beilj? = 3 (B;—aj)"+ 2 A7. 


sal i=r+1 jal t=r+1 


Imajući na umu (12) i postupak (MNK) kojim je dobiveno s? definirano u (48), 
očigledno je da iz (51) proizlazi 


n 
(52) gq=(n-r)sž= min [y-pu= min (y—ul* = > Bi 
(41,...,4r) (Q1,...)Qr) ini 
gdje je 
(53) | Bi=ve], I=lrai no 
Tretiramo li vektore y i u kao vrijednosti slučajnih vektora Y i u=>(XK) iz 


r-dimenzionalnoga linearnog regresijskog modela, brojeve q i B; tertirat ćemo kao 
vrijednosti odgovarajućih slučajnih varijabli Q i B;, pa jednadžbi (52) odgovara 
pripadna jednadžba sa slučajnim varijablama 


(54) Q=(nu=f7)5 = Dru B? , 
iz=r+l 
dok jednadžbi (53) odgovara 


(55) Bi = Y e! T=. shto 


Lo 


Uzimajući u obzir modelsku jednadžbu (9), (55) postaje 
Bi =(u+€)e! =ne! +€€e]. 


Iz (49) se vidi da je 


he; =0, zalt=ribl;essN, 
tako da se može pisati 
56 nexisiah me 
(56) Diz=te6/ 3 LE md sest) 
*Vektore €; € R" (1=1,...,n) također shvaćamo kao jednoredne matrice i stoga se skalarni 


produkt piše kao ye!. 
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Promotri li se slučajni vektor_ŽZ = (Z,,. ..,Zu), Egdjeje_ Zi; = € e] (= 
=1,...,n), odmah se vidi da se može pisati 


(57) Z=€E, 


gdje je E ortogonalna matrica n-tog reda (E! E =1,), čiji su stupci sastavljeni 
od komponenata vektora e; u standardnoj bazi prostora R". 

Primijene li se na slučajni vektor Z formule iz zad. 23. u V. poglavlju, te uzme 
u obzir (10), dobiva se : 


(58) ElZi=EE]E=0, 


2z=E X;E=EE=I,, 


a to znači da je 


(59) ElZ]=E[B]=0,:i1=r+l1,...,n 


VIZ) = VIBl=o=E[B?], i=r+1,...,n. 


Iz (54) i (59) dobiva se 


n 


E[Q] = (n — rjE[S*] = X EB?]=(n-r)o*, 
o z=r+1 
iz čega neposredno slijedi da je E[S*] = o“, čime je, bez prizivanja na dodatnu 
priposavan 4, dokazana nepristranost procjenitelja S za nepoznati parametar 
O“. ' : 

Relacija (57) pokazuje, nadalje, da je slučajni vektor Z dobiven ortogonalnom 
linearnom transformacijom slučajnog vektora € kojemu pripada n-dimenzionalna 
normalna razdioba N(O, 52I,,) s vektorom očekivanja O i kovarijancnom matricom 
OI, (v. (21)). Stoga će slučajnom vektoru Z također pripadati n-dimenzionalna 
normalna radioba N(O,0“I,) (v. točku 10. u V.6), što znači da su Zi,...,Z, 
nezavisne slučajne varijable i vrijedi Z; = N(0,o*) (i=1,...,n). 

Budući daje B; = Z;,zai=r+1l,...,n, očigledno je da vrijedi 


2 


1 
(60) — B; > N(0,1), Le >mde dano 6; 
o B 


pa iz (54), (60) i točke 5. u V.6. proizlazi 


On 2 
N94 mE. l | 2 
Zs ža= X (28) <čn-9, 


ižr+1 


čime je u potpunosti dokazan fundamentalni teorem. 
Da bi se dokazala relacija (42) primijetimo da slučajnoj varijabli 


pripada standardna normalna razdioba N(0, 1) i da se može pisati 
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pa primjenom fundamentalnog teorema i točke 7. iz V.6. odmah slijedi tvrdnja (42). 
Primjenom fundamentalnog teorema dobiva se još jedan rezultat koji ima ve- 
liku praktičnu vrijednost, što ćemo vidjeti u daljnjim razmatranjima. 
Uzme li se, naime, prirodni broj m(1 < m < r) i linearno nezavisni vektori 
zHeR(k=1,..., r—m), koji se mogu prikazati kao linearne kombinacije baznih 
r—-m u ' ' 
vektora €1,...,€,_m, tada se i vektor i= 37. G,z) (qx, € R) može prikazati kao 
ve kei 
linearna kombinacija istih baznih vektora, tj. može se pisati 


r—m 


(61) = 3 8x6, a ER, Kel os Tem. 
k=1 


Iz (50) 1 (61) proizlazi da je 


r-m | n 
lu-rlč= S (A-84)?+ X AB, 
k=1 | izr-m+1 
iz čega proizlazi da je 
n 
(62) G= mno dy-A= _ mno (y-amP= XB. 
dijasdplsg Qin 


izr-m+1 
Naposljetku, iz (52) i (62) dobivamo 
q—q= 2» B; 
i=r—m+l 


odnosno u terminima slučajnih varijabli | 
(63) 0-Q= > B, 


pri čemu vektore y i g&, odnosno ft, razmatramo kao vrijednosti slučajnih vektora 
iz odgovarajućih modela višestruke linearne regresije. 


> Na temelju (60), (63) i rezultata navedenih u točki 5. i točki 7. iz V.6, odmah 
slijedi vrlo važna relacija | 


n—r Q-Q 
m Q 


F(mn—r), 
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koja će omogućiti rješavanje problema testiranja hipoteza o skupini regresijskih 
koeficijenata. 


7. Testiranje hipoteza o skupini regresijskih 
koeficijenata 


U regresijskoj analizi uobičajeno je da se ulazne varijable zovu faktori, tako da 
se, pojednostavnjeno govoreći, analiza zapravo sastoji od utvrđivanja utjecaja po- 
jedinih faktora na promatranu izlaznu slučajnu varijablu. Stoga se često, umjesto o 
jednodimenzionalnome i višedimenzionalnome regresijskom modelu, govori o jedno- 
faktorskoj i višefaktorskoj (multifaktorskoj) regresijskoj analizi. Glede toga nameće 
se pitanje kako utvrditi značajnost utjecaja pojedinog faktora ili skupine faktora na 
vjerojatnosnu razdiobu izlazne slučajne varijable. Preciznije govoreći, postavlja se 
zadatak da se, uz zadanu razinu značajnosti, testira hipoteza da određena skupina 
faktora nema utjecaja na izlaznu varijablu. 

Pretpostavima da je riječ o r-dimenzionalnome (r > 2) linearnom regresijskom 
modelu i postavimo nul-hipotezu 


Hot; S dorEve E kt ES0 leme Tr, 


tj. da je m regresijskih koeficijenata nula, odnosno da postoji samo r — m faktora, 
među promatranih r faktora, koji značajno utječu na izlaznu slučajnu varijablu. 

Alternativna je hipoteza da bar jedan od spomenutih m regresijskih koeficije- 
nata nije jednak nuli. 

Da bi se riješio postavljeni zadatak treba definirati prikladnu test-statistiku, 
za koju će se moći odrediti pripadna vjerojatnosna razdioba u uvjetima istinitosti 
hipoteze Hg. Do takve statistike može se doći ovim heurističkim razmatranjem: 
Ako regresijska funkcija ima oblik 


(65) hua(z) = ) ajzd!, 
j=1l 
onda veličina 


X_ly-pa(z0)l?,  a=(q,..4)€R", 


i=l1 


pokazuje "kvalitetu" prilagodbe funkcije 2 > ua(r) danim podacima (z;,y;) (i = 
=1,...,n). Odrede li se procjene aj (j=1,...,r) regresijskih koeficijenata aj; po 
metodi najmanjih kvadrata, dobiva se vrijednost 


(66) EA DVETACIH 
iz 


Ako se, pak, pretpostavi da regresijska funkcija sadrži samo r— m koeficijenata 
(različitih od nule), tj. da ima oblik 


312 Višestruka regresija ' X11.7 
(67) uz(z) = dah), 


idasuax (k=1,...,r— m) također dobiveni kao MNK-procjene odgovarajućih 
nepoznatih regresijskih koeficijenata, stavit će se 


n 


(68) T= 3 lu -ugle)P,  d=(a,..a_m)€R'-", 


iz=1 


Očigledno je q < q, jer je q dobiveno kao najmanja vrijednost zbroja kvadrata 
odstupanja empirijskih izlaznih vrijednosti y; (t = 1,...,n) od odgovarajućih teorij- 
skih vrijednosti najbolje prilagođene regresijske funkcije sa r slobodnih parametara, 
dok je q dobiveno na isti način, ali sa samo r — m slobodnih parametara, što ne 
može dati manju vrijednost zbroja odgovarajućih kvadrata odstupanja. 

Možemo, stoga, konstatirati da razlika q — q pokazuje koliko se pogoršala pri- 
lagodba regresijske funkcije danim podacima, kada se smanji za m broj regresijskih 
koeficijenata u r-dimenzionalnome linearnom regresijskom modelu. Očigledno je 
da sama vrijednost q — gq neće moći poslužiti kao kriterij za donošenje odluke o 
prihvaćanju, odnosno odbacivanju hipoteze Hy, jer je riječ o veličini koja ovisi o 
upotrijebljenim mjernim jedinicama, pa je prirodno da se potraži test-statistika čije 
vrijednosti su "čisti? brojevi. 

Na temelju (47) i (66) može se reći da je veličina dobra procjena za 
2 


, neovisno o hipotezi Hg, pa se može pisati 


(69) qa=(n—r)o*. 


nepoznati parametar g 


Ako je hipoteza Hy stvarno istinita, onda se zbog istih razloga može smatrati 
s gre 
n—r+m 


(70) q=(n—r+m)o?. 
Iz (69) i (70) proizlazi 


da je i veličina dobra procjena za g*, što opravdava zapis 


-qamo?, 


1 dobra procjena za o. 


što opravdava zaključak da je i veličina e 
_ Ako, pak, hipoteza Hy nije istinita, onda se može očekivati da će veličina 
— biti značajno veća od o“, jer se reduciranjem broja regresijskih koeficijenata 
značajno pogoršala prilagodba regresijske funkcije danim empirijskim podacima. 
Stoga se čini razumnim smatrati da bi vrijednost omjera“ 


(1) ps me = 


(d zagd U 


mogla poslužiti kao kriterij za donošenje odluke o hipotezi Hy. 
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To postaje naročito prihvatljivo kada se v tretira kao vrijednost slučajne vari- 
jable 


i ono 
—— ——————— : 
moo Q 

za koju se odmah razabire (v. (64)) I pripada F-razdioba sa (m, n—r) stupnjeva 
slobode. 

Prema tome, prevelika vrijednost v, test-statistike V , sugerirat će da hipotezu 
Ho treba odbaciti. Kritično područje. zadane razine značajnosti a odredit će se 
uvjetom 


(73) sE (20: 


min—r 


(72) V = 


gdjeje i inverzna funkcija za f.r.v. F-razdiobe sa (m, n—r) stupnjeva slobode, 
čije su vrijednosti prikazane u tabl. VII. u Dodatku. 


Ilustrirajmo opisani postupak na 1. primjeru, tako da postavimo hipotezu 
Ho:aj =a2 =0, što nam donekle i sugeriraju vrijednosti procjena regresijskih ko- 
eficijenata navedene u tabl. 4. Praktički govoreći, postavljamo hipotezu da količina 
cementa i agregata ne utječu na tlačnu čvrstoću betonskih kocki. 

Imamo, dakle, n=7,r=4, n= a- (n — r)s2 = 3 .0,72 = 2,16, pa ostaje 
da se još izračuna 


7 
q= min Ska — az“ : aa)" = = X. — daa — aa]? = 2,89, 


i=1 i=1 


pri čemu je a3 = —73,9 i a4 & 72,5. 
Sada se, prema (71), može izračunati 


7—4 2,89 — 2,16 
ui E ran iki 


Uzme li se a = 0,05, iz tabl. VII. u Dodatku odčitava se F5.3(0,95) = 9,99, pa 
se vidi da vrijednost (0,51) test-statistike ostaje izvan kritičnog područja [9,55;00), 
što znači da hipotezu Hy treba prihvatiti. 


8. Nelinearna regresija: 


U mnogim praktičnim situacijama priroda promatranog fenomena sugerirat će 
nam da za regresijsku funkciju ne valja uzeti linearnu, odnosno afinu funkciju. Ako 
je riječ o jednodimenzionalnoj regresiji, onda će nam to redovito pokazati 1 grafički 
prikaz podataka (z;,y;)(i=1,...,n) u pravokutnom koordinatnom sustavu. Tako, 
na primjer, dobiju li se mjerenjem podaci navedeni u tabl. 7, čiji je grafički prikaz 
dan na sl. 35, očigledno je da će trebati uzeti neku nelinearnu funkciju regresije 
da bi se dobila dobra prilagodba danim podacima. Prva je pomisao da se uzme 
polinom drugog stupnja (kvadratna funkcija) kao regresijska funkcija. 
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Tablica 7. 


y = 0,377r2 — 2,052 + 3,82 


Slika 35. Grafički prikaz podataka iz tabl. 7. 


Budući da nema posebnih teškoća, odmah ćemo razmotriti opći problem tzv. 
polinomske regresije, u kojem se Pretpostavlja da regresijska funkcija ima oblik 
polinoma (r — 1)-og stupnja | 


(74) na(z) = az"! + a227-* + ..+aiz ta. 

5 Zadatak nam je odrediti procjene aj (j =1,...,r) koeficijenata aj, tako da 
vrijedi 

n 
(75) min nj = 16 
onin ada ka =a na(z0K, 
gdjejea =(a,,...,a,) MNK-procjena vektorskog parametra a = (a,,.. dr). 
Usporedbom (74) sa (5) odmah se vidi da se model polinomske regresije može 

shvatiti i kao model r-dimenzionalne linearne regresije u kojem je zi) = g"-i 
(pedk r), tako da se i svi rezultati izvedeni u r-dimenzionalnome linearnom 


regresijskom modelu mogu prenijeti na odgovarajući model polinomske KESE 


saa čemu se mora paziti da se u konkretnim računima zi) zamjenjuje sa zi — 
t=1,...,n). 
Slika 35. sugerira nam da podacima iz: takt 7. pokušamo prilagoditi kvadratni 


polinom (r = 3), kao regresijsku funkciju. Da bismo izračunali MNK-procjene 
odgovarajućih koeficijenata načinimo tablicu 8. 


BI 


EL 1 kv ta EN 


a ledja ža pd eda og A ai o ŠOA SVG) BG LP oi dt 


Nadan iračka ra čao Ša a PREK E 


Da aa io dasa. 


Vemil LE aja AA Ka 1 dana Db ai 


i 
4 
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Tablica 8. 


0 0 1 

lo 11 
K=|14 211, 

l&6. 4 1 

36. 6.1 


dok je vrijednost vektora izlaznih podataka 
u=(4,21;2,9); 


pa se primjenom formule (16) dobiva a, = 0,377, = = —2,05, a3 = 3,82. 
Može se, dakle, ustanoviti da je podacima iz tabl. A pnlašeden kvadratni 


polinom 
u(z) = 0,377 1% — 2,05 2 + 3,82, 


kao pripadna regresijska funkcija. 

Na (Re formule (34) može se izračunati i procjena s“ za nepoznati para- 
metar o, što omogućuje (formule (40), (43) i (46)) i izradbu tablice 9, koja je 
analogna tablicama 4,5. 16. 

Iz tabl. 9. mogu se odčitavati intervali povjerenja pouzdanosti y = 0, 99 za 
regresijske koeficijente, te vrijednosti odgovarajućih test-statistika za testiranje 
hipoteze da je regresijski koeficijent jednak nuli. Budući da je u promatranom 


2 


Tablica 9. 


0,377 — 2,05 3,82 
0,0426 0,268 0,304 


0,194. —3,20 2,52 
0,561  —0,90 5,13 
8,86 _7,85 12,6 


Ba at garan NEDE 1 Bo a PIŠAT e pravat a EMO eton g ka s po ja pai a van dk n m 
poe SKE TI A SLS E spat ol oke PRA o eta sjedini vors Pain lev okna i dia Pojeo oda ORI E od jan sn = m x pr ! mE 
oko Ze ty x PoAKsnI R Brana g os strna kese PONE a JR oR O op i i I op Rovt E Rhona rana panja Ai o RE 


o TRA VP POT i AH PRADA or aL 
PR ČA AD NEĆ CI oci ana i 


E 


dvama +43 do 


PA. JENNA zaš 


ZDEN 
Kit Srafsag viči, 
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primjeru n=51ir=3, za razinu značajnosti a = 0,10, dobiva se 
Cak (1 z 5) — G7 (0,95) = 5,99 


(v. tabl. VI. u Dodatku), pa se zaključuje da svaku od hipoteza Hoj : dj = 0 
g=1 2,3) treba odbaciti. To praktički znači da se ne može proći s manje od tri 
nenulta koeficijenta u regresijskoj funkciji polinomskog tipa. 

Pripadna tablica analize varijance izgleda ovako: 


Tablica 10. 


Koeficijent 
determinacije 


Zbroj 
stupnjeva | kvadrata 
slobode odstupanja 


(korigirani) 
slučajna 
2 2 
ukupno 


Može se, dakle, konstatirati da se 97,8 %, odnosno 95,6 %, ukupnog rasipanja 
može protumačiti modelom, što upućuje na zaključak da je model dobro prilagođen 
danim empirijskim podacima. Da se, kao regresijska funkcija, uzela afina funkcija 
(1(z) = az + b), dobio bi se koeficijent determinacije R? = 0,125, što znači da bi 
se modelom moglo objasniti samo 12,5 % ukupnog rasipanja. 


Broj 


Izvor 
rasipanja 


Srednje 
kvadratno odstupanje 


Rezultati izvedeni na temelju modela višestruke linearne regresije mogu se 
Primijeniti 1 na općenitiji slučaj nelinearne regresije, gdje se pretpostavlja da regre- 
sijska funkcija ima oblik 


(76) ha(z) = dihi(z) +dash2(z)+...+arh,(2), 


pri čemu su hi,...,h, određene realne funkcije. Usporedi li se (76) sa (5), vidi se 
da će se te formule podudarati kada se stavi #1) = hj(a) (ij=1,...,r), što znači 
da se MNK-procjene dj, za nepoznate parametre a; u (76), mogu dobiti primjenom 
formule (16), imajući na umu da je sada nl! =:h; (El sei): 

Ža ilustraciju opisane problematike razmotrimo idući primjer. 


2. primjer 


Da bi se ustanovila ovisnost tlačne čvrstoće betona Y (MPa) o koncentraciji 
z (promila) određenog aditiva izveden je eksperiment, a dobiveni podaci prikazani 
Su u tabl. 11. Uz svaku navedenu koncentraciju (z;) aditiva izrađene su po tri 
betonske kocke na kojima je mjerena tlačna čvrstoća (vi). 
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Tablica 11. 


y 
3 

x ? x * y=-1,2767 + 12,792 /z — 0,642 

x 
3 : 
2 x 

r 
---+ > —————————— 
0 5 10 1520 25 30 


Slika 36. Grafički prikaz podataka iz tabl. 11. 
Pretpostavimo da je regresijska funkcija oblika 
(77) na(z) =auz+avt +3, 


što s obzirom na relaciju (76) znači da smo uzeli h1(z) = £, hx(z) = Vz i ha(z) = 1. 
Osnova za sve daljnje proračune je tabl. 12. 


Tablica 12. Rezultati su prikazani u tabl. 13. 
Tablica 13. 


1 
l 
l 
l 
l 
l 
l 
l 
l 
l 
1 
1 
l 
1 


E numee 


a penReetn 


za jja 


e E 
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Procjena regresijske funkcije oblika (77) za dane empirijske podatke, Prema 
tome, glasi 


uz) = —1,276 2 + 12,792 Ve — 0,642. 


Naravno da smo, umjesto funkcije regresije (77), mogli uzeti i neki drugi tip 
regresijske funkcije (v. zad. 14), pa se odmah otvara problem egzaktnog vrednovanja 
pojedinoga regresijskog modela sa stajališta njegove prilagodbe danim podacima 
o čemu će biti više riječi u XI11.5. | 


Izbor tipa regresijske funkcije, teorijski gledano, proizvoljan je postupak. 
Međutim, Istraživač se pri takvom izboru ipak oslanja na neke spoznaje o proma- 
tranim veličinama, ili ga pak grafički prikaz podataka navodi na ideju o tipu regre- 
sljske funkcije. Svakako je najočiglednija situacija kada se pokaže da točke (z;, y;) 
(1 =: 591), bar približno, leže na jednom pravcu. Ako to nije tako, nastoje 
se originalni podaci (2;,y;) transformirati tako, ako je to moguće, da transformi- 
rani podaci (2;,V;) približno leže na jednom pravcu. Takvo se rezoniranje temelji, 
Primjerice, na činjenici da eksponencijalna regresijska zavisnost u(z) = bexp(az) 
između ulazne (g) i izlazne (y) varijable uzrokuje afinu regresijsku zavisnost između 
varijabli z/=riy=lny lzvy= bexp(az) proizlazi, naime, daje lny =1lnb+ax 
odnosno y=ar'+b,gdjeje al =aib=lnb. | 

Ako se, prema tome, utvrdi afina represijska zavisnost na podacima (zf,y) 


| X ) 
5 : : r 1 A SJ s X T . ,. . .. 
U odrede se MNK-procjene a i b! odgovarajućih parametara a! i D' afine funkcije 
; ' x ! : a š ' 5 ' X : . 5 PE 
2 mas +b, može se smatrati da između izvornih podataka (T;, Vi) postoji 
eksponencijalna regresijska zavisnost za koju su a =a i b = exp(b') procjene 
odgovarajućih parametara. | 
| Sluti li se, recimo, da bi se moglo raditi o regresijskoj ovisnosti tipa potencije, 
t). da regresijska funkcija ima oblik u(z) = be“, izvest će se transformacija izvornih 
: : a / . m. z , :. 1 
dEak lormulama z' = luna i y =lny, jer će tada z/ i y/ biti povezani afinom 
na ae mne e. PL zvali i 
unkcijom 2 >ar+b,gdjejea=daib= exp(b'). 
Numerički postupak opet se provodi na transformiranim podacima (zi,1;) = 
= (nae,lny;) (2 1;2200t1) Kojum:se dolazi do MNK-procjena a“ i b', nepoznatih 
: e : Zok Ag ba ke : s s pa po x g pa 
parametara a 1b afine funkcije, a kojima odgovaraju procjene a = d' ib = exp(b') 
parametara a 1 b potencijske regresijske funkcije u(z) = ba“. 


Primjedba 


Iz prikazane teorije regresijske analize, posebno višestruke regresije, te raz- 
motrenih Primjera, očigledno je da dobivanje traženih rezultata redovito zahtijeva 
vrlo opsežna numerička računanja. Primjena računala i odgovarajućih posebnih 
Programa za rješavanje regresijskih problema omogućuje da se brzo 1 lako rješavaju 
| om praktični problemi koji sadrže velik broj podataka i koji bi bez upotrebe 
računala bili praktički nerješivi. Osim toga, primjena računala omogućuje da se na 
Iste podatke Primijene različiti regresijski Modeli i brzo dobije odgovor na pitanje 
Ma. ili manjoj prikladnosti pojedinog modela. Isto tako omogućena je 1 ve- 
. Mkd e u Pe i i, Be nakon računalske obrade problema 

Jelo ita različite tablice (tablica analize varijance i dr.) 1 pripadni grafički 
Prikazi (krivulje regresije, intervali povjerenja 1 sl.). 
| 


XII. Zadaci 319 
Zadaci 
1. Provjerite da se linearni regresijski model opisan u XI.1.i X1.2. dobiva kao 


da] 


specijalni slučaj r-dimenzionalnoga linearnog regresijskog modela zar =2i 
a = (a,b). 

Izvedite formule (4) i (5) iz XL.1. primjenom formule (16). 

Pokažite da se formule (11) i (12) iz _XL.1. mogu dobiti kao posebni slučaj 
formula (20) i (22). 

Pokažite da se sustav jednadžbi (17) može matrično zapisati u obliku (15), 
gdje umjesto a stoji a. 

Nekaje (Xi,...,Xn) slučajni uzorak za slučajnu varijablu X, kojoj pripada 


pa n 
očekivanje pui varijanca o2. Nekaje T = 3 a;X; (a; € R) određena statistika 


(linearna statistika). i=1 

a) Nađite dovoljan uvjet da T bude NL-procjenitelj za ju. : 

b) Dokažite da je aritmetička sredina slučajnog uzorka X = — X X; naj- 
N izi 


bolji linearni procjenitelj (NLN-procjenitelj) za parametar u u smislu da 
je V[X] < VI[T], za svaki NL-procjenitelj T. 


Dokažite da u r-dimenzionalnome linearnom regresijskom modelu vrijedi si s 
pm 
= 049 +0“ (formula (37)). 


7. Načinite tablicu analize varijance na temelju podataka iz 1. primjera. 


. Izvedite formule (41). 


Uputa: Iskoristite činjenicu da A; približno ima normalnu razdiobu N(aj, 87bjj). 


. Izvedite formule za granice intervala povjerenja zadane pouzdanosti y1 za 


nepoznatu vrijednost regresijske funkcije ua(m), uz pretpostavku da je broj 
n podataka vrlo velik. 


Uputa: Primijenite asimptotsku normalnost slučajne varijable ka(2) 


10. Pokažite da se formule (29) i (30) iz XI.2. mogu dobiti kao posebni slučaj 
(r = 2) iz formula (42). 

11. Pokažite da se formula (56) iz XI.4. može dobiti kao posebni slučaj formule 
(2 a FES =4 

12. Izvedite relacije (44), (45) i (46) kojumna se definiraju kritična područja pri 
testiranju jednostavne hipoteze lg : aj = ao, prema odgovarajućoj alterna- 
tivnoj hipotezi Hy : aj f ao (ili aj < ag, ili aj > a9). 

13. Napravite proračun svih relevantnih veličina na temelju podataka iz 2. prim- 


14 


jera uz pretpostavku da je regresijska funkcija polinom trećeg stupnja. 


. Na temelju podataka iz 2. primjera izračunajte procjene nepoznatih parame- 
tara uz pretpostavku da je regresijska funkcija: 


(a) eksponencijalnog tipa, 
(b) potencijskog tipa. 


Nacrtajte 1 odgovarajuće grafičke prikaze. 
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15. Želi se istražiti ovisnost između početne težine tovljenika (z(!)), količine po- 


16. 


jedene hrane (2(2)) 


i 1 konačne težine (y). Eksperimentom su dobivene ove 
vrijednosti: 


2) 


32 90 
33 17 
33 80 
36 TO 
39 97 
38 84 
40 92 
41 80 
42 95 
45 100 


a Prir 1 Pi . .. . pta . + 
) Primjenom modela višestruke linearne regresije Izračunajte pripadne 


re A lisk , a * da . , . die 
prie koeficijente i napišite odgovarajuću procjenu za regresijsku 
unkciju. 


b) Načinite tablicu analize varijance. 


c) se ns intervale povjerenja pouzdanosti 1 = 0,95 za regresijske koefici- 
jente. 


d) Testirajte nul-hipotezu da je koeficijent uz varijablu z(1) jednak nuli. 


Mjerena je učinkovitost (y) radnika svakog sata (z) tijekom radnog dana. 
Dobiveni su ovi rezultati: 


a P ll | a S A ... s 2 je . .. 
) MN modela kvadratne regresije izračunajte pripadne regresijske 
(Oe ] , . x: . » . .. .. 
PPNENE | napišite odgovarajuću procjenu za regresijsku funkciju. 
b) Načinite tablicu analize Varijance. 


<. | pm Bo 
) Usporedite dobivene rezultate s rezultatima dobivenim uz primjenu mo- 
dela linearne regresije. 


sI 
Bi 
d k:1 
BI 
3 
ž 
3 
HI 
i 
El 
EI 
a4 
si 
El 
i 


XIII. Analiza varijance 


1. Uvod u problematiku 


Analizu varijance, kao određeni matematički model i praktičnu tehniku za is- 
traživanje nekih bioloških fenomena, prvi je razvio poznati engleski statističar R. 
A. Fisher (1890-1962). Danas je analiza varijance, koja se skraćeno zove ANOVA 
(prema engleskom: Analysis of Variance), vrlo važna i popularna metoda za. is- 
traživanje različitih slučajnih pojava u mnogim znanstvenim područjima. 

U sklopu analize varijance razvijeno je nekoliko matematičkih modela (jedno- 
faktorski, dvofaktorski i sl.), koji omogućuju operacionalizaciju vrlo jednostavnih 
postupaka za rješavanje važnih praktičnih zadataka. 

Da bi se lakše i jasnije shvatila problematika 1 kasnije teorijske konstrukcije 
modela analize varijance, najprije će se razmotriti jedan vrlo tipičan primjer. 


1. primjer 


Tri različite tvornice automobila A, B i C proizvode, među ostalim, i tip au- 
tomobila približno iste snage motora, pa se želi provjeriti hipoteza da potrošnja 
goriva ne ovisi o marki (tvornici) automobila. Kako organizirati eksperiment koji: 
će omogućiti donošenje odluke o prihvaćanju, odnosno odbacivanju postavljene 
hipoteze? | 

Odmah se nameće ideja da se uzme nekoliko automobila svake marke, proveze 
određeni broj kilometara sa svakim od njih, te izmjeri potrošnja goriva. No, svaki 
vozač zna da potrošnja goriva ovisi i o mnogim drugim faktorima (vrsta ceste, 
vozačko iskustvo, godišnje doba i sl.). Da bi se eliminirao utjecaj ceste, mogu 
se svi automobili voziti po istoj cesti. Želi li se eliminirati i utjecaj vozača, čini 
se razumnim slučajno izabrati vozače, tako da se dobivene vrijednosti potrošnje 
goriva mogu smatrati vrijednostima slučajnog uzorka. U svakom slučaju cilj nam 
je utvrditi utjecaj samo jednog faktora, faktora proizvođača, na potrošnju goriva. 

Recimo da je uzeto nj = 6 automobila marke A, nz = 5 automobila marke B 
i na = 5 automobila marke C. Rezultati eksperimenta navedeni su u tabl. 1. 


Aritmetička 
sredina 


Tablica 1. 


Potrošnja goriva u 
hitrama na 100 km 


Marka 
automobila 


LA 606. GB ITU TO 70 
Bl TT OTAD TA 
TS 81. 150020 


—— 
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Može li se na temelju podataka iz tabl. 1. zaključiti da nema značajne razlike 
U potrošnji goriva među promatrane tri marke automobila? 

Radi još veće jasnoće problema i upućivanja na vezu ovog zadatka s problemima 
regresijske analize, načinimo i određeni grafički prikaz podataka iz tabl. 1 (v. sl. 


37). 


A B 6 
Slika 37. Grafički prikaz podataka iz tabl. 1. 


Budući da je marka automobila nenumeričko obilježje, na sl. 37. nije riječ o 
pravom koordinatnom sustavu, ali nam ona ipak sugerira da se izmjerene brojčane 
vrijednosti (litara/100 km) mogu shvatiti kao vrijednosti izlazne varijable, uzroko- 
vane odgovarajućim vrijednostima (A,B,C) nenumeričkog faktora — marke au- 
tomobila. To nam pokazuje da će matematički model za opisivanje promatra- 
nog fenomena imati određene sličnosti s regresijskim modelima, u smislu da se 
izlazna numerička vrijednost shvaća kao posljedica djelovanja nenumeričke vrijed- 
nosti (razine) ulazne varijable (djelujućeg faktora), u ovom slučaju marke automo- 
bila, koja određuje srednju vrijednost izlazne varijable (potrošnja goriva) i kojoj se 
dodaje slučajna greška. | 

. Neka je, dakle, razina djelujućeg faktora A i pripadna srednja vrijednost izlazne 

varijable A, tada se vrijednost izlazne varijable, recimo 7,4, shvaća kao zbroj 
MA +€A, Edje je ga vrijednost slučajne varijable €, (slučajna greška). 
Prema tome, u opisanom modelu imat ćemo tri nepoznata parametra MA, MB 
luc 1 još nepoznate parametre povezane sa slučajnim varijablama £A, £B i £c. 
Pretpostavi li se, kao što se to obično čini, da su ČA, €B 1 €c nezavisne slučajne 
varijable sa zajedničkom normalnom razdiobom N(0, 2), onda je riječ samo još o 
nepoznatom parametru 47. | 

Brojeve iz prvog retka tabl. 1. možemo opisati jednadžbom 


MWAZSMNA+EA, M 
brojeve iz drugog retka jednadžbom 

YB=HB+EB, 
a brojeve iz trećeg retka jednadžbom 

Vic = BC + €ic, LE Leo), 0) 


Sada se mogu f irati ičite statistič : | 

. ormulirati različite statističke zac 

PT tl raz | laće da se, na temelju danih 
i e, ((vrde određene činjenice o nepoznatim parametrima (točkasta 1 inter- 

“ana procjena parametara, testiranje različitih hipoteza i sl.). 


| 
I 
I 


| 
3 
j 
i 
| 
i 
3 
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Čini se prilično logičnim da se na početku postavljeno pitanje o postojanju ili 
nepostojanju značajne razlike u potrošnji goriva formulira kao problem testiranja 
nul-hipoteze Hg : A E UB = ic, prema alternativnoj hipotezi da bar na jednom 
mjestu stoji znak nejednakosti. 

To je tipični problem analize varijance i cijela teorija analize varijance 
uglavnom se sastoji od objašnjenja postupaka za njegovo rješavanje. Budući da se 
ta teorija uglavnom bavi analizom rasipanja (varijance) izlaznih podataka, teorija 
je i dobila naziv analiza varijance. 

Očigledno je da rasipanje aritmetičkih sredina (zadnji stupac tabl. 1) može 
poslužiti kao indikator valjanosti hipoteze Hg. Da smo, recimo, dobili sve tri arit- 
metičke sredine međusobno jednake, onda bi njihova varijanca (rasipanje) bila nula 
i u tom slučaju bismo smatrali da treba prihvatiti hipotezu Ho. U danom slučaju 
ta varijanca približno iznosi sf = 0,58, pa se postavlja pitanje da li je to dovoljno 
veliko za odbacivanje hipoteze Hy. 

Pogledajmo kakvi se empirijski podaci mogu očekivati kada je hipoteza Hy 
stvarno neistinita, tj. kada automobil marke A ima zaista manju potrošnju goriva 
od automobila marke B. Moglo se, recimo, dogoditi da je kod svih šest automo- 
bila marke A bila potrošnja 7 (litara/100 km), kod svih pet automobila marke B 
7,5 (litara/100 km) i kod svih automobila marke CG 7,6 (litara/100 km). Tada bi 
varijanca podataka unutar svakog retka tabl. 1. bila nula. U danom primjeru te 
varijance iznose s4 = 0,076, sa = 0,175 i s& = 0,190, pa se možemo pitati da li 


dobivene vrijednosti upućuju na odbacivanje hipoteze Hg. Ponderirana sredina tih 
2 


: ££/,.4 : a ; : : ž S h 
disperzija iznosi s2 = 0,14 i u nastavku će se pokazati da je omjer > prikladan 
S 


2 
indikator za donošenje odluke o hipotezi Hy, jer je očigledno da prevelika vrijednost 
toga omjera (veliko rasipanje aritmetičkih sredina redaka i malo rasipanje unutar 
redaka tabl. 1) upućuje na odbacivanje nul-hipoteze. 


2. Jednofaktorski model 


U 1. primjeru istaknuli smo bitne momente, koji će nam olakšati shvaćanje 
općih apstraktnih pojmova koje ćemo sada definirati kao jednofaktorski model 
analize varijance. 

Pretpostavlja se da je dano m (m > 2) nizova podataka 


V11, gšoks+ Vin, 
U21 daš U2n 

(1) sra nk RK VV ij 
Um1, Na Umn in 


idajei-ti(t=1,...,m) niz dobiven mjerenjem slučajne varijable X; > N(p;,o?), 
te da su Y4,..., XY, nezavisne slučajne varijable. To znači da se yyj (i=1,...,m, 
j=1,...,n;) može interpretirati kao vrijednost slučajne varijable 


(2) jn: 


. 9 ; pas LA 
gdje su €ij > N(0, 0“) nezavisne slučajne varijable. 


O E I I IRE ŠLAT 


3 


, 
#- 
di 
ši 
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=== Suljo ei E ns hi S E če oo 


Možemo, dakle, reći da je Y;j izlazna slučajna varijabla, čije vrijednosti y,; 
nastaju djelovanjem i-te razine (1t;) određenog faktora, uz dodatak slučajne greške 
(&ij). Djelujući faktor (ulazna varijabla) najčešće ima nenumeričko obilježje i u 
tome je glavna razlika u odnosu na model jednodimenzionalne (jednofaktorske) 
regresijske analize. 

U 1. primjeru djelujući je faktor marka automobila i imamo tri (m = 3) razine 
A, B 1 O toga faktora. U tabl. 1. navedena su mjerenja izlazne varijable y,; 
(potrošnja goriva), pa za 2 = 1 imamo šest (nj = 6) vrijednosti, dok za i = 2 i 
1 = 3 imamo pet (n2 = nz = 5) vrijednosti izlazne varijable. Ukupno se raspolaže 
san =ni +n2+n3 = 16 podataka o potrošnji goriva. 


Općenito se stavlja 


(3) iam 


.. i=1 
prI cemu n označuje ukupni broj podataka. 
Sada možemo općenito definirati i glavni problem jednofaktorske analize vari- 
jance, koji se sastoji u određivanju postupka za testiranje nul-hipoteze 


(4) Hozjir == 2: 


prema alternativnoj hipotezi da bar jedna jednakost u (4) nije istinita. Drugim 
rječima, problem se sastoji u određivanju kritičnog područja, zadane razine 
značajnosti, pri testiranju hipoteze o jednakosti očekivanja m nezavisnih slučajnih 
varijabli normalnih razdioba zajedničke nepoznate varijance 62, na temelju m ni- 
zova podataka (1) 

= U praktičnim situacijama hipoteza Hy obično se iskazuje kao hipoteza da raz- 
ličite razine djelujućeg faktora ne utječu na promatranu izlaznu veličinu, odnosno 
da uočeni faktor nemna utjecaj na promatranu veličinu. 


Stavimo 


| m 
h Nifli ) 
n < 
. t=1 
pa je uobičajeno da se veličina u zove opća srednja vrijednost, dok se 6; zove efekt 


i-te razine djelujućeg faktora. U tom svjetlu modelska jednadžba (2) može se 
zapisati u obliku 


OEM 1, neš go M 


(6) Mj=ui+ti +ćij, 


a hipoteza Hy iz (4) kao 


PE Lea. Eos NA 


(7) Hoaton= PE, LE 0 210, 


Modelska jednadžba (6) može se protumačiti tako da se izlazna vrijednost yi 
shvati kao zbroj opće srednje vrijednosti u, efekta 6; i-te razine djelujućeg faktora 
1 vrijednosti ejj slučajne greške £;;. Hipotezom MH, zapisanom u obliku (7) 
postavlja se teza da su efekti beznačajni. | 


Da | S U ' e veta l'er:£ Š m : , . , ... .. 
o "1 se definirala prikladna test-statistika, poruoću koje će se odrediti kritično 
područje zadane razine značajnosti a, uvest će se najprije oznake 


Kr Znana 


KRR UNA ea e o 


ra ŠAEMEA Ualna stadike Nit og e U adio 


| 
| 
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Mens, oći 
"nj < tl) > ia ) m, 
jel 
... 1 m Ni 1 m s. 
reišmelšem 
izčljzil s isl 
(10) Q=) »(04—-Y, 
iwLjE 
dk : 
(11) Q=>.uM=Yr 
tel 
(12) 2 DRA 2 0 
tsljesl 


Lako se provjerava da je (v. zad. 2) 
(13) Q=Q+Q2. 


Iz (8) se vidi da je Y, aritmetička sredina #-tog niza podataka, tj. onih izlaznih 
varijabli na koje djeluje 2-ta razina promatranog faktora, dok je Y aritmetička 
sredina svih izlaznih varijabli. | 

Stavi li se | 

12 l 12 l 3 1 
(14) nE Q, Sre GE — 0 


n—1 m—-—1 n—m 


može se reći da je S? korigirana varijanca svih mjerenja, Si je korigirana varijanca 
aritmetičkih sredina nizova, dok se S2 može interpretirati kao pokazatelj prosječnog 
rasipanja unutar nizova. 

Ako je hipoteza Hy stvarno istinita, onda vrijedi: 


(15) Kij  N(4,6*), VE kKusMte.. JEL 
(16) Y; = N(u, —) ' DE dime; 
Ž 
— g 
(17) rs NU 


pa na temelju onog što je navedeno u VI.4. (formula (53)), proizlazi 


1 n—1 2 ; /2 

(18) Za St aX(n-1), 
1 EN ENI REI 

(19) < Q===st+(m-1), 


g“ (0 


zk:oo 
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n—m 


1 
(20) 7 2 = —g- 52 X (nm), 


te činjenica da su Q, i Q)2 nezavisne slučajne varijable. 
Primijeni li se, konačno, rezultat iz točke 8. u V.6, dobiva se 


2 
pa ce se vrijednost v = 2: test-statistike V, uzeti kao kriterij za donošenje odluke 


. F . .1- . 2 . * z 2. .. . . 
O prihvaćanju ill odbacivanju hipoteze Ho. DA je ta vrijednost zaista prikladna za 
donošenje spomenute odluke, može se zaključiti iz činjenice (v. zad. 4) da je 


m 


li 
m — iP niče, 


i=1 


(22) E[S?] = 02 + E[S2]= 02, 


bez obzira na hipotezu Hy. Akoje hipoteza Hy istinita, onda je, dakako, E[S?] = a2, 
pa se može očekivati da će vrijednost v biti blizu jedinice, a ako hipoteza H, nije 


i 2 
dau “ 2 : gd odala : : S 
istinita, onda se može očekivati povecanje veličine ŠI, pa stoga 1 omjera v = —. 
S 
2 


Zato će se hipoteza Hy odbaciti, ako 


| se dobije prevelika vrijednost za v, tj. ako 
se dobije + 


v> F7! (1—-a), 


m—-il,n-m 


dje je a(0 < a < 1) zadana razina žnačajnosti, a F'-!, \_,, inverzna funkcija 
od f.r.v. za F-razdiobu sa (m — 1,n — m) stupnjeva slobode (v. tabl. VII. u 


Dodatku). 


. Provedu hi se odgovarajući računi na podacima iz 1. primjera, dobivaju se 
vrijednosti slučajnih varijabli iz (8)-(12), tj. 


Vi = 7,0 ) Vo = 1,9, V3 = 7,6 ) 7) Is 1,34 ) 


q=3,00, q=1,16, q=q-q=1,84. 


Na temelju (19) i (20) izračunava se 


sle058, S=0m, . : 


iz čega proizlazi | 
v = 4,14. 


Uzme li se razina značajnosti a = 0,05, iz tabl. VII. u Dodatku odčitava se 


F4.13(0;95) = 3,81, 
| 


E. 
a 
d 
4 
zd 


A E TERA TO RUR KA JED NIRIRC ARES RUN 


sa UL dla čaša aid lojalan 


POTONJA RC VVR EVA BT O NJP IR OVE O 
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pa se vidi da vrijednost (4,14) test-statistike V iz (21) pada u kritično područje 
[3,81; 00), što znači da hipotezu o nepostojanju značajne razlike u potrošnji goriva 
promatranih maraka automobila ne treba prihvatiti. 

Radi boljeg pregleda i veće jasnoće problema i njegovih rezultata, uobičajeno: 
je da se proračun analize varijance prikazuje u obliku tzv. ANOVA - tablice (tablice 
analize varijance). U tabl. 2. prikazan je opći oblik ANOVA-tablice za jednofak- 
torski model analize varijance. 


Tablica 2. 


Vrijednost 
test- 
-statistike 


Broj Zbroj 
stupnjeva kvadrata 
slobode odstupanja 


Korigirana 
varijanca 


Izvor 
rasipanja 


razlika pa 


među ni(y;— 9)" 


nizovima 


3. Dvofaktorski aditivni model 


Mnoge praktične situacije zahtijevaju da se promatra utjecaj dvaju faktora na 
ishod određene pojave. Tako se, na primjer, može postaviti teza da osim faktora 
marke automobila, na potrošnju goriva utječe i vozačko iskustvo. Stoga će se pro- 
matrati i faktor iskustvo, koji također može imati više razina, pa se prirodno nameće 
pitanje o postojanju ili nepostojanju značajnog utjecaja na potrošnju goriva jednog 
i drugog faktora, te o eventualnom postojanju imeđusobne interakcije između ta dva 
faktora. 


2. primjer 
Vozači su kategorizirani, prema vozačkom iskustvu, u pet razreda: 


. razred — početnici s vozačkim stažem manjim od 1 godine 
. razred — vozači sa stažem od 1 do 5 godina 

. razred — vozači sa stažem od 5 do 10 godina 

. razred — vozači sa stažem od 210 do 20 godina 

. razred — vozači sa stažem većim od 20 godina. 


CAC S 


Slučajno se biraju po tri vozača iz svakog razreda. Jednom se daje automobil 
marke A, drugom marke B i trećem marke U, koje voze po istoj cesti i pritom se 
mjeri potrošnja goriva (litara na 100 kilometara). Dobiveni rezultati prikazani su 
u tabl. 3. 


manjem 


| 
H 
li 
i 
| 
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Tablica 3. 


, Iskustveni 
Marka še: razred Aritmetička 
automobila ' i ' : sredina 


Smije li se, na temelju dobivenih podataka, zaključiti da I. faktor (marka auto- 
Mmobila), sam za sebe, odnosno II. faktor (vozačko iskustvo), sam za sebe, ne utječe 
značajno na potrošnju goriva? Može se, također, postaviti i pitanje o eventualnom 
zajedničkom utjecaju (interakciji) obaju faktora na potrošnju goriva. 

Da bi se dobio odgovor na postavljena pitanja, nužno je izgraditi odgovarajući 
matematički model, koji bi nas trebao uputiti 1 na organizaciju odgovarajućeg 
eksperimenta za Smile ljstije potrebnih podataka. 

Pretpostavimo da I. faktor općenito ima mi (mi > 2), all. faktor m2 (m2 > 2) 
razina i da se raspolaže sa n = mim» podataka yij (t=1,...m,3=1,...,mo), 
Sdje je yi; vrijednost izlazne slučajne varijable Mj dobivena zbog djelovanja :-te 
razine I. faktora, j-te razine II. faktora 1 slučajne greške, tako da se može pisati 


ro = Mij otet : 


Pri čemu se pretpostavlja da su &;; nezavisne slučajne varijable sa zajedničkom 
normalnom razdiobom N (0,0). Može se, dakle, reći da je podatak y;; dobiven 
mjerenjem slučajne varijable Y;j > N(tij, 07). 

Zapišimo mjerenja yij (1=1,...,m,j3=1,...,m2) u obliku tablice 4. 


Tablica 4. 


Razine II. 
faktora 


pra 


Razine 
I. faktora 


U 2. primjeru I. faktor je marka automobila, II. faktor vozačko iskustvo, mi = 3 

1 mo = 5, dok Yij označuje potrošnju goriva automobila i-te marke, kada ga vozi 
Vozač iz j-tog iskustvenog razreda. 

Ustanovimo da je u svakom polju tabl. 4. zapisano jedno mjerenje slučajne 

Varijable Yij. Može se, dakako, zamisliti i model u kojem se pretpostavlja više 
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mjerenja slučajne varijable Y;j, tj. realna situacija u kojoj je moguće izvesti više 
mjerenja izlazne varijable uz djelovanje 2-te razine I. faktora i j-te razine II. faktora. 
Tada bi se u svakom polju tablice našlo 1 više od jednog podatka, što će se razmotriti 
kasnije (v. XIII.4). 


Uvedimo oznake 


1 Mi m2 
23 "= lik 
1 3 | 
(24) M DN a E. meno 
1 Mi ' 
(25) Mj == 2 ) O; ua u, j= Isaias? ) 
ii 


pri čemu se u može shvatiti kao opća srednja vrijednost, Mi kao srednja vrijednost 
izlazne varijable uz fiksiranu i-tu razinu 1. faktora, a Mj kao srednja vrijednost 


izlazne varijable uz fiksiranu j-tu razinu II. faktora. Zato se 6; zove glavni efekt 
i-te razine I. faktora, a 6; glavni efekt j-te razine II. faktora. 


Lako se provjerava (v. zad. 5) da vrijedi 


m m2 
(26) 94 => ho 0 
It 


i=1 


Uvede li se zapis 
(27) Mij ZM + b; +6; + Dij : 
može se reći da je očekivana vrijednost u polju (4,3) tablice 4. rastavljena na zbroj 
u kojemu prvi član uu karakterizira opću srednju vrijednost izlazne varijable, član 
6; glavni efekt <-te razine I. faktora, član 6; glavni efekt j-te razine II. faktora, dok 


član bij karakterizira doprinos BE dusa interakcije 2-te razine I. faktora 1 j-te 
razine II. faktora. Stoga se kao nul- hipoteze prirodno nameću hipoteze 


pri čemu se za svaku od njih, kao alternativna hipoteza, uzima da bar na jednom 
mjestu ne vrijedi znak jednakosti. 

Testirati hipotezu Ho, znači odgovoriti na pitanje je li utjecaj I. faktora na 
izlazne podatke značajan. Testiranjem hipoteze Ho2 dobiva se odgovor na pitanje 
da li je utjecaj II. faktora na izlazne podatke značajan, dok se testiranjem hipoteze 
Hoo dobiva odgovor na pitanje da li postoji interakcija između 1. 1 II. faktora, 
koja uzrokuje značajne promjene na izlaznim podacima. Budući da postojanje 
interakcije znatno otežava problem konstrukcije odgovarajućeg testa, najprije ćemo 
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s | os 
razmotriti slučaj gdje se već u modelu pretpostavlja da interakcija ne postoji (ij = 


= 0) i tada se govori o adrtivnom modelu. U tom se slučaju modelska jednadžba 
zapisuje u obliku 


Yj=u+6 +6; +ćij, 


iz čega se razabire da I. i II. faktor imaju aditivni efekt na izlaznu varijablu. 

U pronalaženju prikladnih test-statistika za testiranje hipoteza Hy, i Hg2, uz 
zadanu razinu značajnosti a, postupit će se slično kao u prethodnom poglavlju. 
U vode se statistike | 


m 1 Mi m2 2 
(32) Vi xXmen(12) , 


n =mim2 , 


i=1j=1 
(33) Ni = — un (u+df 22), pan 
i=1 
—/" l m | o? 
(34) Va jun (a48, 2), Jales Me: 
(35) Q = SE; am 
i=1j=1 
(36) Qi = m 3_(7 ia 
i=1 
(37) Q2 = mi S —Y), 
je 
88). Q=%X X ;-Fi- Far). 
i=1j=1 


Vidi se da je 

— aritmetička sredina svih mjerenja, 

i — aritmetička sredina mjerenja dobivenih djelovanjem i-te razine I. faktora 
(i-tog retka tabl. 4), 

ko aritmetička sredina mjerenja dobivenih djelovanjem J-te razine II. faktora 
(1-tog stupca tabl. 4), 

Q - zbroj kvadrata odstupanja svih mjerenja od njihove aritmetičke sredine, 

Qi > zbroj kvadrata odstupanja sredina redaka od zajedničke sredine, 


Qo > zbroj kvadrata odstupanja sredina stupaca od zajedničke sredine, 
(3 — rezidualni zbroj kvadrata. | 


Lako se pokazuje (v. zad. 7) da vrijedi 


(39) Q=Qrvos+0:, 


1 
d 
E] 
Ž 
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što je analogon formule (22). Problem će se i ovaj puta rješavati razmatranjem 


odnosa između veličina Qi, Q2 1 Qs. 
Iz pretpostavki modela te formula (35)-(38) proizlazi (v. zad. 8, 9.111) 


(40) E(Q1] = (mi — 1)o? + m2 X_(6)7, 
iZz1 

(41) = EIQz]=(me— lož + m X 1(6)", 
jal 

(42) | E[Q3] = (mi — 1)(m2 — 1)o? , 

pa se vidi da je 

(43) MS 0 


(mi — 1)(m2 — 1) 
nepristrani procjenitelj za nepoznati parametar o, bez obzira na hipoteze (28) i 
(29), dok će 


l 
44 ia 
(44) pd Qi 
biti nepristrani procjenitelj za o“ samo ako je hipoteza (28) stvarno istinita, a 
(45) = ——0Q 
mol : 


bit će nepristrani procjenitelj za o“ samo ako je hipoteza (29) stvarno istinita. U 
protivnom se za S? i S2 mogu očekivati veće vrijednosti, kako se razabire iz (40) i 


(41). 


Zato se čini prikladnim uzeti, kao test-statistiku za testiranje hipoteze Hoj da 
I. faktor nema značajni utjecaj na izlazne podatke, omjer 


(46) Vi eg) 


a kao test-statistiku za testiranje hipoteze Hyg2 da II. faktor nema značajni utjecaj 
na izlazne podatke omjer 


52 
3 
2 2 
: m : 51 59 ši ; š , 
Prevelika vrijednost omjera vj = —5, odnosno v2 = —5, upućivat će na odbacivanje 
S S 
3 3 


hipoteze Hyg,, odnosno Hy2. 
Povoljna je okolnost da se može dokazati 


s=(mi—1X(m2—1), 


(48) Vi dis F(ri1,s) ; Ti = Mi — l : 


odnosno 


(49) V; ot F(r2, s) : "2 = m2 — 1 4 
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što omogućuje da se odredi kritično područje, zadane razine značajnosti a, prim- 


jenom tablice (v. tabl. VII. u Dodatku) za F-razdiobu. Tako će se hipoteza Hg, 
odbaciti ako se dobije 


(50) Vi a ZR 8 


T1,5 


dok će se hipoteza Ho» odbaciti ako se dobije 


(51) vo>Frl(1-a). 


T2,5 


Sada možemo izvedene teorijske rezultate primijeniti na rješavanje praktičnog 
zadatka opisanog u 2. primjeru, gdjejeri = 2,1, =4is =8. Na temelju podataka 
iz tabl. 3. dobiva se 


4=9,98, q = 11,06, diEo912 q2=494, 


1z čega se računa 


q3=q—qi—q2=1,00, 


1 dalje 
2 1 
d=——q=256, 
mi>1 
2 l € 
= ——qQ=1235, 
mo —1 
2 l | 
3 = = 0,125, 


(my — 1)(m2 — 1) * 


IZ čega se konačno dobiva vi = 20,48 i vo = 9,88. 


Tablica 5. 


Vrijed 


Izvor Broj Zbroj Koriei nost 

rasipa- stupnjeva kvadrata A test- 

nja slobode odstupanja N72 -statis- 
tike 


razlike 
među 
recima 


(tabl. 4) 


mi —1| 


razlike 
među 
stupcima 


(tabl. 4) 


slučajna 


Mijim2 — 1 
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Uzme li se a = 0,05, iz tabl. VII. u Dodatku, odčitava se 


F38(0,95) = 4,46, F48(0,95) = 3,84, 

pa se vidi da tv, = 20,48 pada u kritično područje [4,46;00), a isto tako i 
v2 = 9,88 pada u kritično područje [3,84; 00), što znači da obje hipoteze Hg, i 
Ho2 treba odbaciti. Podaci iz tabl. 3. upućuju, dakle, na zaključak da i marka 
automobila i vozačko iskustvo utječu na potrošnju goriva. 

Slično kao u jednofaktorskom modelu analize varijance, i u dvofaktorskome adi- 
tivnom modelu proračun relevantnih veličina obično se prikazuje u obliku ANOVA- 
-tablice dvofaktorskoga aditivnog modela (v. tabl. 5). 


4. Opći dvofaktorski model 


Da bi se mogla testirati i hipoteza Hg, izražena u (30), koja izražava odsustvo 
interaktivnog utjecaja obaju faktora, nužno je imati više od jednog podatka u 
svakom polju tabl. 4. Kako to izgleda u praksi ilustrirat ćemo opet na primjeru 


potrošnje goriva (1.i 2. primjer). 


3. primjer 


Usvajamo sve pretpostavke iz 2. primjera, osim što umjesto po tri vozača iz 
svakog razreda slučajno biramo devet vozača i trojica voze automobil marke A, 
trojica marke B 1 trojica marke C, pri čemu se mjeri odgovarajuća potrošnja goriva 
(litara na 100 km). Dobiveni rezultati prikazani su u tabl. 6. 


Tablica 6. 


Iskustveni 
Marka razred 
automobila 


Odmah vidimo da se u svakom polju tabl. 6. nalaze tri (l = 3) vrijednosti 1 
svaku od njih smatramo rezultatom mjerenja slučajne varijable Yija = Mij + Čijk, 
gdje je ij neslučajna veličina koja karakterizira djelovanje 1-te razine I. faktora 
(marka automobila) i j-te razine II. faktora (vozačko iskustvo), dok je &;jx slučajna 
varijabla koja karakterizira slučajnu grešku k-tog mjerenja u polju (1,3). 
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| Matematički opis dvofaktorskog modela analize varijance s više podataka po 
polju općenito je izražen jednadžbom 
(52)  Yijk = Mlij tEija, jel kej; Fla M, ke Lobos 
gdje dh Čijk nezavisne slučajne varijable sa zajedničkom normalnom razdiobom 
N(0, o ). Izlaznu vrijednost Vijk tretiramo kao jednu od [ vrijednosti u polju (£,) 
tablice podataka. Smatra se, dakle, da Je Vijk rezultat djelovanja i-te razine I. fak- 


tora, j-te razine II. faktora, međusobne interakcije obaju faktora i slučajne greške 
normalne razdiobe s očekivanjem nula i varijancom o7. To se može izraziti, kao iu 


(27), tako da se stavi 
(53) kij =n+6; +06 +6, 
gdje je, slično kao u (23) — (26), 


1 Mi m2 


(54) ke jj 
/ Mimo 2. bh ! 
t= J= 
D. <= 
4" J g 
(55) Da Miša _i=M—u, i=1...,m, 
i=1 
NE 
mo i . 
(56) Bo Da bi =W;-n, J=1,...,m, 
i= 
M1 m2 M i m2 Mi m2 
_ "no 
S) Xa=Nu=lay= 36-359 6y =0. 
=! i=l i=1 j=1 no kgj=1 


5 Interpretacija veličina u, u, M5 bi, 6; 1 b;j ista je kao u XIII.3. Sada je još 
očiglednije zašto se 6/ zove glavni efekt i-te razine I. faktora, a 6/ glavni efekt j-te 
razine II. faktora, dok se &;; zove interakcijski efekt, čiji utjecaj se također može 
proučavati u ovom modelu analize varijance. | 

Glavni Je problem i u ovom modelu da se definiraju prikladne test-statistike 
za testiranje hipoteza (28), (29) i (30). Ideja vodilja i ovaj je puta rastavljanje 
ukupnog rasipanja podataka na komponente, što je tipično za sve modele analize 
varijance. U tu svrhu uvode se statistike 


Mi m2 


zi o? 
8) => >> e (1.5) (o n=mma, 


i=ljs=te=i 


m2 | 
s! l s g? 
(59) P= ode < M (146 3) i=1...,m, 


j=zik=1 m2 


miu 1 


koe l 2 
60 = — SRRTO u 
i mil Yijk N £ Po, 2) , pes l, +<..,>m2, 


iž=|k=1 


ši 
i 
4 
j 
Ž 
ći 
3 
4 
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l 
= 1 s o? pEšekiiai 
(61) Pu = pv N(u+dl+8+69, 7.) i=1...,me, 
=1 
Mi m2 |I 


Ž.DblYe -Y) 


(62) Q= 
islj=lk=i 
(63) Qr=mlX (Y-Y), 
iz1 


m2 


(64) Q=mlJ (Y-Y), 
3=1 


Mi ma 
pp 4 =" — 
(65) Qo=14_> (Fi; Mena +Y), 
iz=ljs=l 
Mi m2 |I 


(66) Qo=9)_.X_D (je> Yi). 


i=ilj=lk=l 


Definirane veličine možemo interpretirati ovako: 

— aritmetička sredina svih mjerenja, 

— aritmetička sredina svih mjerenja iz 1-tog retka, 

aritmetička sredina svih mjerenja iz j-tog stupca, 

— aritmetička sredina svih mjerenja iz (2, 3)-tog polja, 

— zbroj kvadrata odstupanja svih mjerenja od njihove aritmetičke sredine, 
Qi > zbroj kvadrata odstupanja sredina redaka od zajedničke sredine, 

Q2 — zbroj kvadrata odstupanja sredina stupaca od zajedničke sredine, 


Q12 — interakcijski zbroj kvadrata, 
(3 — zbroj kvadrata odstupanja mjerenja od odgovarajućih sredina u polju. 


“ 


e. 


OMMA 


Pokazuje se (v. zad. 14) da vrijedi 


(67) Q=Q+Q+Q2+Q3, 


što je analogon jednakosti (39) u dvofaktorskom aditivnom modelu, uz primjedbu. 
da se u ovom slučaju pojavljuje i član Qi,» koji karakterizira interakciju 1. i IL 
faktora. 

Posebno je važno da se može dokazati (v. zad. 16,17,18. 1 19) da vrijedi 


(68) E[Qu] = (mu — 1)o? + m2l9_(6)7, 
i=1 

(69) E[Q2] = (m2 — 1)a? + mi13_(6)%, 
ii 


(70) E[Q12] = (mi — 1)(m2 — 1)“ + 28) D_ Gij(6; +8; +6), 


iz=ljeEl 
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(71) E[Q3] = mim2(l— 1)o*, 


pa se vidi da Je 
1 
12 |; pau ne 
(7) Ž mim2(l— 1) a 
nepristrani procjenitelj za nepoznati parametar o“, bez obzira na hipoteze (28), 


(29) i (30), dok će 
: I 
(73) Si = ——Q, 
mi—1 


kako se razabire iz (68), biti nepristrani procjenitelj za o* samo ako je hipoteza 


(28) (I. faktor ne utječe na izlazne podatke) stvarno istinita. Isto tako će 


l 
(74) g. = ——— 0 


mio = l ' 


biti nepristrani procjenitelj za a“ samo ako je hipoteza (29) (II. faktor ne utječe na 


izlazne podatke) stvarno istinita, što se razabire iz (69). Iz (70) se, pak, razabire 
da će 
l 
19 (a e a 
u) s (my — 1)(rm2 — 1) Qi2 


* samo ako je hipoteza (30) (ne postoji interakcija 


biti nepristrani procjenitelj za a 
obaju faktora) stvarno istinita. 

Ako su hipoteze (28), (29) i (30) doista neistinite, onda se mogu očekivati, kako 
se vidi iz (68), (69) i (70), veće vrijednosti statistika S?, S2 i S?, nego u slučaju 
stvarne istinitosti navedenih hipoteza. Sve to sugerira da se 


9 

(76) Kia SI — F(emi—1,mimo(l—1)) 
23 

uzme kao test-statistika za testiranje hipoteze Hy1, da se 
S 

(77) PE c2 — F(mo— 1, mimo(l— 1)) 
23 


uzme kao test-statistika za testiranje hipoteze Hy», te da se test-statistika 


2 
212 

12 
SŽ 


(78) Vi» =  F((mi—1)(2m2—1), mimo(l— 1)) 


uzme za testiranje hipoteze Hi». 


g? s5 sf 

Drieta RUNE ' m 1 = 2 12 
obije li se vrijednost ty = -5, odnosno vo = —5; odnosno vi2 = —? 
g2" 82" 2 ) 

ris 3 


mnogo veća od jedinice, to će nas uputiti na odbacivanje hipoteze Hg1, odnosno 
Ho2, odnosno H;»2. Uzme li se razina značajnosti a 1 dobije 


(79) VI > g (l1—a), "=m—>l1l, s=mim(l— 1), 


hipoteza Ig, će se odbaciti. Dobije li se na temelju danih podataka 


| 
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(80) vo > m1 —a), rx=m2—1, 
hipoteza Hy» će se dobaciti, a dobije li se 
(81) V12 > Zente LI —a), rize =(Mi—1l)(m2—1), 


odbacit će se hipoteza H,2. 


Proračun veličina vi, v2 1 Vi2 obično se prikazuje u obliku ANOVA-tablice 
dvofaktorskog modela s više podataka po polju (v. tabl. 7). 


Tablica 7. 
Broj | Zbroj 


stupnjeva kvadrata 
slobode odstupanja 


Izvor 
rasipanja 


razlike mi 
među qr = mal (g da 9)" 


t=1 


recima 


razlike 


m2 
među q=ml»l(T; - y) 
stupcima 1=1 


Mi o Mma2 


interakcija | (mi —1)(m2—1) (| q2=1)2.2(75,; — TRE g +7)? 


' t=lj=l 


slučajna mim2(l—1) 
greška 


ukupno mim2l—1 


Vrijednost 
test- 
-statistike 


Izvor Korigirana 
rasipanja varijanca 


razlike 
među 
recima 


razlike 
među 
stupcima 


ZA 2 
interakcija o q12 


(mi — 1) (m2 — 1) 


slučajna 
greška 


(Em 


e nj 
= 
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Na temelju podataka iz 3. primjera (tabl. 6) dobiva se pripadna ANOVA- 


tablica (tabl. 8). 


Tablica 8. 


Broj Zbroj Vrijednost 


Korigirana 
stupnjeva kvadrata BE test- 
varijanca 


Izvor 
rasipanja 


slobode -statistike 


razlike 
među 
recima 


razlike 
među 
stupcima 


5. Testiranje hipoteza o adekvatnosti modela 


Globalno gledajući na problematiku regresijske analize i analize varijance može 
se ustanoviti da su razvijeni različiti matematički modeli, u kojima postoje određene 
pretpostavke (tip regresijske funkcije, nezavisnost 1 normalnost slučajnih grešaka, 
odsustvo interakcije i sl.), koje se unaprijed usvajaju i na koje redovito ne utječu 
dani empirijski podaci. Mogu se, dapače, na iste podatke primijeniti različiti mo- 
deli. 

Imajući, na primjer, na umu različite regresijske modele (linearni, polinom- 
ski, eksponencijalni i sl.), očigledno se može pokušati istim podacima prilagoditi, 
recimo, linearni i polinomski regresijski model. Na temelju same teorije modela ne 
može se egzaktno zaključiti o većoj ili manjoj prikladnosti (adekvatnosti) izabranog 
modela za opisivanje promatranoga praktičnog fenomena. Stoga se nameće zadatak 
nalaženja određenog postupka za ocjenu adekvatnosti usvojenog modela. 

U svim razmatranim modelima regresije i analize varijance temeljna je pret- 
postavka da slučajna greška ima normalnu razdiobu N(0, o"). U nešto pojednostav- 
njenom obliku opća modelska jednadžba glasi 


(82) Maemsker Ga ne 
pri čemu se pretpostavlja da su ć1,...,En nezavisne slučajne varijable, a pu;(2 = 
= 1,...,n) i 0* nepoznati parametri. U tim modelima razrađene su metode (re- 


dovito je to MNK) za dobivanje odgovarajućih procjenitelja za pj; 1 o". Ako je 
broj podataka n dovoljno velik, onda se može uzeti da je nepoznati parametar Bl; 
približno jednak vrijednosti /1; pripadnog procjenitelja, tj. može se pisati u; A fl, 
a također i a% a 07, gdje je 5% odgovarajuća procjena za o“. 
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U regresijskim je modelima fl; = nalzi) (a je MNK-procjena za nepoznati 
parametar a regresijske funkcije), dok je u ANOVA-modelima fi; aritmetička sre- 
dina onih vrijednosti izlazne varijable na koje djeluje određena kombinacija razina 
promatranih faktora. 

U svim modelima se nepristrana procjena za nepoznati parametar o 
sa s“, pa se za velike n može pisati a2 A s?. 

U uvjetima adekvatnosti izabranog modela i velikog broja podataka niz 


2 označuje 


(83) i tad 0 U Re 
o 


trebao bi se ponašati kao niz nezavisnih mjerenja slučajne varijable Z — N(0,1), 
tj. kao vrijednost slučajnog uzorka iz standardne normalne razdiobe. 

Prema tome, testiranje hipoteze o adekvatnosti modela (82), tj. o valjanosti 
pretpostavke da se slučajna greška podvrgava normalnoj razdiobi N(0, o), svodi se 
na zadatak o testiranju hipoteze Hg da podaci (83) potječu iz standardne normalne 
razdiobe, što se može riješiti hikvadrat-testom (v. IX.3) ili KS-testom (v. X_.2). 

Ako su dani podaci takvi da testiranje završi odbacivanjem hipoteze Hy, onda 
to upućuje na sumnju u valjanost pretpostavke da greška ima normalnu razdiobu s 
očekivanjem nula i konstantnom varijancom o“. Može se, naime, desiti da varijanca 
greške nije konstantna veličina (heteroscedasticity), već ovisi o vrijednostima ulazne 
varijable i tada, naravno dolazi u pitanje adekvatnost modela, pa treba potražiti 
adekvatniji model (v. [33]). 

Za testiranje hipoteze o prikladnosti izabranog tipa regresijske funkcije (afina, 
polinomska, eksponencijalna i sl.), može poslužiti postupak opisan u jednofak- 
torskom modelu analize varijance. 

Pretpostavimo, stoga, da se u jednodimenzionalnome regresijskom modelu sa 
m (m > 2) različitih podataka o ulaznoj varijabli, za svaki z; (z = 1,...,m) 
raspolaže sa n; odgovarajućih podataka yi; (j = 1,...,ni) o izlaznoj slučajnoj 
varijabli. Podaci su shematski prikazani u tabl. 9. 


Tablica 9. 


Vrijednost 
ulazne Vrijednost izlazne varijable 
varijable 


V1l,+++>Vlg,+ + +>Vin, 


oi s. a. .. i M 


Uml,+++>YUmji+++>Umnm 


Matematički model za opisanu situaciju može se izraziti jednadžbom 


(84) Yij= nalzi) + ij, g 2 PR | NR 3 RR 
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što znači da se podatak y;; može tretirati kao rezultat mjerenja slučajne varijable 
Yi  N(pua(24),07) | 

Odmah se uočava velika sličnost s modelskom jednadžbom (2), samo što, um- 
jesto ui u (2), u (84) stoji vrijednost regresijske funkcije ua(zi). 


a : ' ona l 
Neka je a MNK-procjena za nepoznati parametar a i neka je Y,; = m Lao A 


pa na temelju relacije (15) iz 11.3. slijedi da, zasvaki i =1,...,m vrijedi 


n, ni 


(85) 2_[uj — a(z1)l? > (vi — 4), 


jal izd 


pri čemu znak jednakosti vrijedi onda i samo onda ako je nalzi) = U,, 4). ako se vri- 
jednost procjene regresijske funkcije u točki z; podudara s aritmetičkom sredinom 
podataka o izlaznoj varijabli za vrijednost z; ulazne varijable. 

Zbrajanjem nejednakosti (85) poi =1,...,m, dobiva se 


m ni 


(86) d= 3. [ug - na(20)l > 3 X (ug - 7)? = 02. 


shi=l tzljsi 


Kada bismo u (86) imali jednakost, mogli bismo smatrati da je izabrana prik- 
ladna regresijska funkcija, jer je zbroj kvadrata odstupanja q najmanji mogući, pa 
se može smatrati i da je izabrani regresijski model adekvatan empirijskim podacima. 
Dobije li se q mnogo veće od q2, treba posumnjati u ispravnost izbora regresijskog 
modela. 

Za egzaktno rješenje problema treba uočiti da se q može tretirati kao vrijednost 
statistike Q = (n— r)S?, gdje je S? definirano u XII.3. (relacija (34)), dok se q2 
može tretirati kao vrijednost statistike Q»2, definirane relacijom (12). U XIIL.6. 
N—To 2 . 

ro = X (n— 7), dok je 


g 


(fundamentalni teorem) pokazano je da 20 == 
2 


l n—m_ 
sA £ : 49 2 : e 
relacijom (20) iskazano da —75Q2 = a: 52 = X“(n—m), pa se, na temelju točke 


8. iz V.6, može zaključiti da 


n— m Q 5? 


n—r Qo  SŽ 


(87) V = 


F(n—rn—m). 


Sada se vidi da se slučajna varijabla V može uzeti kao test-statistika za te- 
stiranje hipoteze Hy : izabrani regresijski inodel je adekvatan, prema alternativnoj 
hipotezi da nije adekvatan. Dobije li se prevelika vrijednost omjera 


j 


[so 


S n—-m q 
(88) VU = — = 


2 naa. 


hipotezu Ho treba odbaciti. 
Uzme li se razina značajnosti a, hipoteza Hy će se odbaciti kada se dobije 


(89) u= ho (l1—a). 


l—rmn—m 


duke čaša 


| 
E 
đ 
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4. primjer 


Mjerenjem određenih fizikalnih veličina dobivena je ova tablica podataka: 


Tablica 10. > 


>“ 


2 4 


Slika 38. Grafički prikaz podataka iz tabl. 10. 


+ + + tr 


h 
0 2 4 6 8 10 


Pogledamo li sl. 38. odmah se nameće ideja da se uzme regresijska funkcija 
oblika u(x) = at+b. Primijene li se formule (4), (5) i (16) iz XI. poglavlja, dobivaju 
se vrijednosti procjena nepoznatih parametara a, bi 2% bh 


(90) 4=83,15, b=245,  s2=465. 
Uspoređujući tabl. 9. 1 10, vidi se da je u promatranom primjeru n = 24, 


m=6,r=2in=4(i=1,...,6), pa se primjenom (86), (90) i podataka iz tabl. 
10, dobiva | 


€=102,35., 


dok se primjenom (88) dobiva 


q2 = 68,79 , 


uv= 122 


Uzme li se razina značajnosti a = 0,05, iz tabl. VII. u Dodatku odčitava se 
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pa se vidi da vrijednost test-statistike (1,22) ne pada u kritično područje [2,17; 00), 
što upućuje na prihvaćanje hipoteze Hg da je izabrani regresijski model (afina re- 
gresijska funkcija) adekvatan. 

Odmah primijetimo da time nisu isključeni svi drugi regresijski modeli, jer 
se, dakako, može dogoditi da i za neki drugi regresijski model opisani test omogući 
prihvaćanje hipoteze Ho. Smisao je ovoga testa, zapravo, da se isključe neadekvatni 
modeli. 


6. Durbin-Watsonov test 


Već je istaknuto da je u općoj modelskoj jednadžbi (82) ključna pretpostavka 
da su ć1,...,&n nezavisne slučajne varijable. Ako ta pretpostavka nije ispunjena, 
narušavaju se bitni zaključci izvedeni u razmotrenim modelima regresijske analize. 
Tako MNK-procjenitelji nepoznatih parametara regresijske funkcije postaju slabo 
efikasni, a postupci za dobivanje intervala povjerenja i za testiranja hipoteza glede 
parametara modela ostaju bez teorijskog utemeljenja, pa njihova primjena može 
dovesti do vrlo pogrešnih zaključaka. 

Stoga se prirodno nameće ideja da se konstruira, ako je moguće, test za provjeru 
nezavisnosti grešaka u danom nizu mjerenja. Iz (82) se vidi da je £ = Y; — ui, pa 


je razumljivo da se niz slučajnih varijabli £; (z=1,...,n) proučava pomoću niza 
reziduuma 
(91) E=u—N, LEM s; 


uvedenih u X1.3.1 XII.4. Veličina €; pokazuje razliku između izmjerene vrijednosti 
Vi izlazne slučajne varijable Y; i procjene li nepoznate modelske vrijednosti u; pri 
i-tom mjerenju. Postavlja se, dakle, zadatak da se na temelju niza podataka (91) 
otkrije zavisnost, odnosno utvrdi nezavisnost niza slučajnih grešaka ći, ...,&€n. 

Da bi se to postiglo nužno je usvojiti neke dodatne pretpostavke. Poznata je 
činjenica (v. V.5) da se za niz slučajnih varijabli normalne razdiobe pojam nezavis- 
nosti podudara s pojmom nekoreliranosti, pa se u tom slučaju zavisnost slučajnih 
varijabli može proučavati pomoću kovarijance, odnosno pomoću koeficijenata ko- 
relacije. U tu svrhu prikladno je niz slučajnih grešaka €; (t=1,...,n) interpretirati 
kao vremenski niz slučajnih varijabli, gdje se pretpostavlja da koreliranost opada s 
vremenskom razdaljinom, tj. da vrijedi 


(92) Cov(ći,£i_j)= do, j=12,... 
odnosno da za odgovarajuće koeficijente korelacije vrijedi 
(93) “=, A MR TA 


pri čemu je e(0 - lo| < 1) zadani broj koji pokazuje stupanj koreliranosti greške u 
trenutku zi greške u pretodnom trenutku i — 1. Pretpostavlja se, zapravo, da je 
koeficijent korelacije između greške i-tog i (1 — j)-tog mjerenja o, tj. da ne ovisi 


O trenutku 1, već samo o vremenskoj udaljenosti j između dva uočena mjerenja u 
danom nizu mjerenja. 
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Ako je, na primjer, koeficijent korelacije između grešaka susjednih mjerenja 
o = 0,2, onda će za mjerenja udaljena j = 2 koraka u nizu iznositi 0% = 0,04, za 
j =3 koraka iznositi će o* = 0,008 itd. 

Ostalo je još da se definira prikladna test-statistika, koja će reagirati na odstu- 
panje od nul-hipoteze Hy : o = 0. Pokazalo se da je to Durbin- Watsonova statistika 


(DW-statistika, v. [10]) 


(fi —- £_1)? 
(94) D==——, 
pau 

i=1 


sE 


gdje je &, slučajna varijabla s vrijednostima €; definiranim u (91). Za daljnja 
razmatranja bitna je pretpostavka da je procjena /t; dobivena metodom najmanjih 
kvadrata. a 

Da je DW-statistika D zaista prikladna za testiranje nul-hipoteze Hy : o = 0, 
prema alternativnoj hipotezi Hy : 0 £0 (ili o <0,ili o > 0) može se vidjeti tako 
da se razvijeno napiše izraz za vrijednost d test-statistike D. Iz (94) se vidi da je 


no Uo no 
har: pear > &ifi-i 
N Tam 9 
(95) d = ze E = šY 2 = š 
4 X €; 
i=1 i=1 i=1 


Ako je n veliko, onda će prvi i drugi član desne strane u (95) približno iznositi 1, 
dok je treći član približno jednak 20, gdje je 6 vrijednost uzoračkog koeficijenta 
korelacije grešaka susjednih mjerenja. Stoga se, umjesto (95), može pisati da je 


(96) da2(l-9). 


Kada su susjedne greške mjerenja nekorelirane, tj. o = 0, tada se 1 za 0 očekuje 
vrijednost bliska nuli, osnosno za d se očekuje vrijednost bliska 2. Dobije li se kao 
vrijednost d test-statistike D broj mnogo veći od 2, hipoteza da su greške £,,...,£,, 
nekorelirane će se odbaciti i prihvatiti alternativna hipoteza da postoji značajna 
pozitivna korelacija u danom nizu grešaka. Dobije li se pak broj mnogo manji od 
2, usvojit će se hipoteza da postoji značajna negativna korelacija u danom nizu 
grešaka. 

Za egzaktno utvrđivanje granica kritičnog područja trebalo bi poznavati raz- 
diobu vjerojatnosti test-statistike D iz (94). Tu se pojavljuju velike poteškoće, jer 
i u uvjetima istinitosti nul-hipoteze ta razdioba vjerojatnosti ovisi o vrijednostima 
ulaznih (neslučajnih) varijabli (faktora), što bi u praktičnim primjenama zahtijevalo 
odgovarajuće tablice za svaku moguću vrijednost ulaznih varijabli. Olakšavajuća je 
okolnost da razdioba vjerojatnosti test-statistike D nije previše osjetljiva na prom- 
jene ulaznih varijabli, tako da se područje vrijednosti d može podijeliti na tri dijela, 
kako je skicirano na sl. 39. , 
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di prihvaća se Hg d2 
Cc] C2 > 
La YI “ d 
KKV 
kritično područje 2 kritično područje 


Slika 39. Skica odlučivanja u DW-testu 


Shema odlučivanja u Durbin-Watsonovu testu (DW-testu) prikazana je tabli- 
com 11. 
Tablica 11. 


Vrijednost test-statistike Odluka 
d € (di, d2) prihvaća se Ho: 0 =0 


odbacuje se Ho: o=01 
prihvaća Hi: o<0 


—00, Ci) 


odbacuje se Ho: o=01 
prihvaća H,: o >0 


ne donosi se odluka 


Budući da razdioba vjerojatnosti test-statistike D bitno ovisi o broju r ulaznih 
varijabli modela, izrađene su tablice (v. tabl. XII. u Dodatku), koje omogućuju 
određivanje brojeva c, i d, za dani ri danu razinu značajnosti a, dok je 


(97) QG=4-—cq, d=4—di. 


5. primjer 
Uzmemo li podatke iz 4. primjera, u kojem smo imali regresijsku funkciju 
u(t) =3,154 +245, 
možemo načiniti tablicu (tabl. 12) u kojoj su a vrijednosti regresijske 


funkcije (2;) = fi;, reziduuma £, i = Mi — mda L4s.504) te £2 i (&-— ad): 
Vrijednost d test-statistike D bit će 


J 


pa se zaključuje, da uz razinu značajnosti a = 0,01, hipotezu Ho (greške mjerenja 
su nekorelirane slučajne varijable) treba prihvatiti. Iz tabl. XII. vidi se, naime, da 
suzaa =001,n=24ir=1odgovarajući ca = 1,04, d, = 1,20, dz = 2,80 i 
C2 = 2,96, pa d=1,4 pada u Područje prihvaćanja hipoteze Ho. 

Uze = 0,05 dobili bšinocrs 12145 do =299 16 = 213, Da 86 
tada ne bi iegla donijeti odluka o jit ezi Hy. 
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€1 di ZI do €2 
1,04 1,20 1,4 ' 2 2,80 2,96 
ća dd, do € 


/ H £ r 
1,27 1,4 1,45 (2 2,55 2,73 


Slika 40. Skica odnosa veličina ci, c2, di, d2i d 


Primjedba 


Sve ono što je već rečeno o primijeni računala, posebno u vezi s regresijskom 
analizom, vrijedi 1 za analizu varijance. Na tržištu softvera postoje vrlo sofisticirani 
čledjsteki programski paketi, koji omogućuju lako i brzo rješavanje i vrlo složenih 
zadataka. 


Tablica 12. 


ni 


—_ 
mes 
če) 


nan o 


l 


8 
4 
4 
0 


= 
= o no 


= 
ho mn» o 


no 
o 
o 


to tot 
nn oo 


t> 
a 


dea 


tet: 


. kAd) 
A. i ot 
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Zadaci 
1. Dokažite da za veličine 6; (t=1,...,m) definirane u (5) vrijedi 27 nib; = 0. 
i=1 


2. Dokažite jednakost (13). 


10. 


ll. 


. Dokažite da, bez obzira na hipotezu Hy iz (7), za statistiku: 


ka = 4 
a) Yi iz (8) vrijedi Y; > N £ + 6;, aa o") 


1 


oi o lt. 
b) Y iz (9) vrijedi Y > N £ ja o) 


. Dokažite formule (22). 


Uputa: Pozovite se na rezultate iz zad. 3. i činjenicu da se može pisati 


m _2 _2 
Qir= NY; —nY 
iz 


. Dokažite valjanost jednadžbi (26). 
. Dokažite da za statistiku: 


= maa lo 
a) Y iz (32) vrijedi Y > N £ ža ), 
u dd 
b) Y; iz (33) vrijedi Y. e N £ +8, . o), 
: 9 
—/. šo . ri! : l 2 
c) Yj iz (34) vrijedi Y; — N £ +0; mi " ) 


Uputa: Pozovite se na (31) i (26). 

Dokažite valjanost jednakosti (39). | 

Uputa: Pođite od identiteta (K;; — Y)? = (M; — Y, — Y; +Y)+ (Y, —Y)+ 
+ (Y; — V)J. 

Dokažite jednakost (40). 


Uputa: Iskoristite rezultate zad. 6. i činjenicu da se može pisati Qi = 
Mi, 


= mo (7)? — miY. 
i=1 


. Dokažite jednakost (41). 


Uputa: Vidite uputu za zad. 8. 


Dokažite da za statistiku Q iz (35) vrijedi 
Mi m2 
E(Q] = (n— 1)0? + m2 3 (6)? + mi S (6/97, n=mm. 
i=i g=1 
Uputa: Iskoristite rezultate zad. 6, činjenicu da se može pisati Q = 
Mi m2 : 
—2 ; 
= > > Yij — nY', te (26) i (31). 
t= IJ= 


Dokažite jednakost (42). 
Uputa: Iskoristite rezultat zad. 10, (39), (40) i (41). 


j 


1 


XIII. 


12. 
13. 


14. 


16. 


1% 


18. 


19. 


20. 
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Dokažite valjanost jednadžbi (57). 
Dokažite da za statistiku: 


me = l 
a) Y iz (58) vrijedi Y > N (6 o") n = mimal, 
n 
u: ne 1 
b) Y, iz (59) vrijedi YN € +6,—— o") 
mol 


==! . ia . =! l 2 
c) Yj iz (60) vrijedi Y; — N (m6, og u ). 

a za l 
d) Yij iz (61) vrijedi Y;; > N £ + 6; +65 + Šij, ; o) 
Uputa: Pozovite se na relacije (53)-(57). 
Dokažite jednakost (67). 
Uputa: Pođite od identiteta 

LI. ode 


(ija >) = (Vk -Yi—Y;+Y)+(—Y)+(;—Y). 


. Dokažite da za statistiku Q iz (62) vrijedi 


E[Q] = (n—1)o%+m2l9 (8)? +m,1 3 (8)? +21 > 9_ 615 (8; +6; +6;)| , 
izl s=1 izljEl 


n= mimal. 


Dokažite jednakost (68). 
Uputa: Iskoristite rezultate zad. 13.1 činjenicu da je 


Qi = mol bali — "| : 


i=1 


Dokažite jednakost (69). 

Uputa: Vidite uputu za zad. 16. 

Dokažite jednakost (70) 

Uputa: Iskoristite rezultat zad. 15, (67), (68), (69) i (71). 

Dokažite jednakost (71). 

Uputa: Vidite uputu za zad. 16. 

Da bi se ispitao utjecaj vrste hrane na prirast težine tovljenika uzete su tri 
hranjive smjese A, Bi C. Smjesom A hranjena su 4 tovljenika, smjesom B 
njih 3 i smjesom C 5 tovljenika. Mjerenjem težine tovljenika nakon mjesec 
dana ustanovljen je prirast (u postocima), što je prikazano ovom tablicom: 


A 
B 
( 


13,7 14,2. 12,8 13,7 
14,0. 13,9 11,7 
197%. 1133 


14,0. 141 


REL /aEP BAL Et so PAROVA RČ PARS VR ASAHI ra JA 
RK PEND P JK ada aja rerni guja dr pila 


zd 
; 
F 
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21. 


22. 


23. 


Analiza varijance XIII. 


a) Načinite odgovarajuću ANOVA-tablicu. 
b) Može li se smatrati da vrsta hrane ne utječe na prirast težine? 
Na svakoj od 12 jednakih parcela primijenjena je jedna od četiri vrste sje- 


mena pšenice i jedna od tri vrste umjetnih gnojiva. Nakon žetve izmjereni su 
dobiveni prinosi (u tonama), što je prikazano ovom tablicom: 


Vrsta 
sjemena 


Vrsta 
umjetnog 


gnojiva 


a) Načinite odgovarajuću ANOVA-tablicu. 

b) Testirajte, uz razinu značajnosti a = 0,01, hipotezu da vrsta sjemena ne 
utječe na prinos. 

c) Testirajte hipotezu da vrsta umjetnog gnojiva ne utječe na prinos. 


Uputa: Primijenite dvofaktorski aditivni model. 


Na temelju rezultata iz tabl. 8. testirajte, uz razinu značajnosti a = 0,05, 
hipotezu: 


a) da marka automobila ne utječe na potrošnju goriva, 
b) da vozačko iskustvo ne utječe na potrošnju goriva, 
c) da nema interakcijskog djelovanja navedenih faktora na potrošnju goriva. 


Svaka parcela iz zad. 21. sastoji se od dva jednaka dijela, pa je izmjeren prinos 
na svakom dijelu posebno, što je prikazano ovom tablicom: 


cs 
\ 


Vrsta 


€ 
sjemena 

Vrsta 

um jetnog 


gnojiva 


a) Načinite odgovarajuću ANOVA-tablicu. 

b) Uz razinu značajnosti a = 0,05 testirajte hipotezu da vrsta sjemena ne 
utječe na prinos, da vrsta gnojiva ne utječe na prinos i da nema interak- 
cijskog djelovanja na prinos. 


ku 
E 


re 
< 


| 
XIV. Neparametarske metode 


1. Uvod u problematiku 


Za neparametarske metode teorije statističkog zaključivanja karakteristično je 
da se pri izgradnji odgovarajućeg matematičkog modela ne ističe pretpostavka o 
tipu razdiobe vjerojatnosti, tako da su te metode prikladne za one probleme u 
kojima se ne poznaje tip razdiobe vjerojatnosti iz koje potječu dani statistički po- 
daci. Vidjeli smo, naime, da je većina razinotrenih modela sadržavala pretpostavku 
da je riječ o klasi normalnih razdioba N(pu, o"), pri čemu je nepoznat jedan para- 
metar, ili oba parametra ui o“. U nekim modelima pretpostavljali su se i drugi 
jednoparametarski i višeparametarski tipovi vjerojatnosnih razdioba (Poissonova, 
eksponencijalna, binomna, uniformna, dvodimenzionalna normalna i sl.). 

U neparametarskim modelima obično se pretpostavlja da se klasa dopuštenih 
razdioba vjerojatnosti sastoji od svih kontinuiranih vjerojatnosnih razdioba. Ona 
je, dakako, mnogo opsežnija od ranije promatranih klasa dopuštenih razdioba u 
parametarskim modelima, što upućuje na zaključak da će se neparametarskim 
metodama dobivati slabiji zaključci (tnanje efikasni procjenitelji, rizičnije odluke 
pri testiranju hipoteza i sl.) nego parametarskim metodama, posebno kada se 
raspolaže s malo podataka. Međutim, kada je broj podataka velik, taj nedostatak 
neparametarskih metoda iščezava, pa u tome 1 jest njihova praktična vrijednost. 

Tipičan primjer primjene neparametarskih metoda pri procjeni parametara 
opisan je već u VI.2, gdje su se promatrali procjenitelji za očekivanje i varijancu, pri 
čemu se klasa dopuštenih razdioba vjerojatnosti sastojala od svih razdioba konačne 
varijance, odnosno konačnoga četvrtog ceritralnog momenta. Dobiveni procjenitelji, 
posebno na velikim uzorcima (nn —> 00), immaju neka vrlo dobra svojstva (konzistent- 
nost, asimptotska normalnost 1 dr.), ali je nezgoda što se malo može reći o njihovoj 
efikasnosti. 

U neparametarskim modelima za procjenu parametara neprimjenjivaje metoda 
najmanje vjerojatnosti za dobivanje procjenitelja, čime smo lišeni svih onih pogod- 
nosti koje imaju ML-procjenitelji (v. VI.6). Općenito se može reći da neparame- 
tarski modeli ne omogućuju primjenu općih načela (metoda najveće vjerojatnosti, 
metoda momenata) za dobivanje procjenitelja promatranih parametara, nego se 
obično procjenitelj definira na temelju intuitivnog uvida u odnose promatranog 
parametra 1 određenih statistika. 

Budući da u neparametarskim modelima testiranja hipoteza nije moguće klasu 
dopuštenih razdioba vjerojatnosti karakterizirati pomoću konačnog broja para- 
metara, pojavljuju se teškoće u preciznom definiranju nul-hipoteze 1 alternativne 
hipoteze. Pri testiranju tzv. neparametarskih hipoteza, odnosno pri konstrukciji 
neparametarskih testova, komplicira se pojam funkcije snage, odnosno operativ- 
ne karakteristike testa.  Test-statistika kod neparametarskih testova redovito se 
definira na temelju određenoga intuitivnog uvida u pokazatelje odstupanja od nul- 


ts: 
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€! 
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-hipoteze, a ne na temelju nekoga općeg načela, kao kod parametarskih testova. 
Općenito se smatra da je odbacivanje nul-hipoteze vrlo dobro teorijski utemeljeno, 
dok je prihvaćanje nul-hipoteze u neparametarskim testovima prilično slabo argu- 
mentirano. | 

Klasičan primjer neparametarskog testa jest test opisan u IX.5, gdje se kao 
nul-hipoteza uzima da niz sparenih mjerenja (z;,y) (= 1,...,n) potječe od 
nezavisnih slučajnih varijabli X i Y. Vrijednost pripadne test-statistike (formula 
(34) iz IX.5) indicira odstupanje od nezavisnosti i prevelika vrijednost upućuje na 
odbacivanje hipoteze o nezavisnosti. Dobije li se, pak, mala pozitivna vrijednost 
spomenute test-statistike, koja uvjetuje prihvaćanje hipoteze o nezavisnosti, teško 
se može naći teorijsko objašnjenje da su promatrane slučajne varijable X 1 Y zaista 
nezavisne. | 

Zbog već istaknute činjenice da se neparametarski testovi obično konstruiraju 
tako da se intuitivno nasluti prikladna test-statistika za određeni problem, a za- 
tim se istraži pripadna joj razdioba vjerojatnosti, u literaturi su opisani brojni 
neparametarski testovi za različite probleme statističkog zaključivanja. U nastavku 
će se prikazati neki najpoznatiji i u praksi najčešće primjenjivani neparametarski 
testovi. 


2. Procjena medijana i kvantila 


Pojam medijana i kvantila p-tog (0 < p < 1) reda, kao određenih terijskih 
pojmova (parametara) u vezi s kontinuiranim razdiobama vjerojatnosti, uvedeni su 
u IV.4, gdje su opisana i njihova osnovna svojstva. 

U mnogim praktičnim problemima potrebno je procijeniti medijan M, a često 
je potrebno procijeniti i kvantil #,, p-tog reda, pa se prirodno nameće zahtjev 
za definiranjem odgovarajućih procjenitelja, na temelju danoga slučajnog uzorka 
(Mi, ak. Na) 

Ako je F f.r.v. određene kontinuirane razdiobe vjerojatnosti, onda je kvantil 
z, definiran formulom 


(1) "(Z) =Pp, 


Ke pe, 
Za p = 0,5 imamo medijan M = 95, tako da vrijedi 
(2) F(M) = 0,5. 


Problemu definiranja procjenitelja za kvantil #,, može se, dakako, pristupiti i 
pomoču određenoga parametarskog modela, tako da se specificira klasa dopuštenih 
razdioba vjerojatnosti P = (PB, :t € 0), gdje je t parametar (može biti i vek- 
torski), a O dani skup dopuštenih vjerojatnosti parametra t. Neka je t vrijednost 
procjenitelja T' za nepoznati parametar t, pa se tada F(2) može uzeti kao procjena 
za nepoznatu vrijednost M(z) (x € R) funkcije razdiobe vjerojatnosti promatrane 
slučajne varijable X. Rješavanjemi jednadžbe F4tp) =p,poz,, dobiva se 


ip = dp + FZ (p) 


% A 
F 

i 
i 
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pa možemo smatrati da je statistika 


« Vo opel 

(3) Ap = 7 0), Uep< I 

određeni procjenitelj za nepoznati kvantil #, promatrane kontinuirane razdiobe 
vjerojatnosti u danom parametarskom modelu. 


Pretpostavi li se još da je T ML-procjenitelj za t, na temelju svojstva invari- 
jantnosti (v. VI.6) proizlazi da je i X, iz (3) ML-procjenitelj za z,,. 

Uvid u funkciju rizika (srednju kvadratnu grešku) pri procjeni nepoznatog 
kvantila £,, vrijednošću £, ML-procjenitelja iz (3), može se približno dobiti prim- 
jenom formule (68) iz VI.6. 


1. primjer 


Pretpostavimo da podaci zi,...,€, potječu od normalne razdiobe N(u,a?), 
gdje su u E Rico > 0 nepoznati parametri (t = (u,o)). Vrijednost Fy(z) funkcije 
razdiobe vjerojatnosti za normalnu razdiobu N(pu, 2) može se izraziti pomoću vri- 
jednosti funkcije razdiobe vjerojatnosti standardne normalne razdiobe (v. IV.5), 
tako da se Inože pisati 


o 


z — u 
Fa) = a( E), reR. 
AKA s 2 i Lp pram M . 
Rješavanjem jednadžbe | —>—> | =p, po ,, dobiva se 
o 


(4) zp=o0(p)+u=o2,+n, 


gdje je zp = 6-!(p). 

Uzme li se T = (X,%) (XY je uzoračka aritmetička sredina, a X uzoračka 
standardna devijacija) kao procjenitelj za nepoznati vektorski parametar t = (u, o), 
bit će 
(5) Ap Na 
ML-procjenitelj za kvantil p-tog reda u parametarskom modelu s klasom dopuštenih 


razdioba P = (N(u,o"): u € R, o > 0). Pozivajući se na rezultate iz VI.6. lako 
se nalazi (v. zad. 1) da je 


(6) EXp]letp>-—(1l-—| 29, 


Iz čega se razabire da X, nije nepristrani procjenitelj za «,,već da približno ima 
, l 1 
pristranost. =<—|:1 ===). 
n 4n 
Slično se izvodi (v. zad. 1) formula 


E a" 1 
(7) BIK — 2,)] me ( bo 0) | 
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iz čega se razabire da je X,, definirano formulom (5), kozistentan procjenitelj za 
u . .. LJ 

Zanimljivo je primijetiti, što se razabire iz (7), da se očekivana kvadratna 
greška povećava kada se p približava jedinici (p > 1 > 2, > 00). To pokazuje da 
procjenitelj A, iz (5), postaje sve lošiji za tzv. repne kvantile. 

Probleni nalaženja razdiobe vjerojatnosti procjenitelja .X, iz (3) redovito je 
vrlo kompliciran zadatak, što praktički otežava utvrđivanje efikasnosti i određivanje 
pripadne funkcije rizika, tako da su parametarski modeli neprikladni pri definiranju 
procjenitelja za nepoznate kvantile. 

U neparametarskom modelu uvodi se pojam uređajne statistike. Ako se 
mjerenja 21,...,2n, koja potječu od kotinuirane slučajne varijable X, poredaju 
po veličini tako da vrijedi 
(8) HE Ee Šo 

: N ANBSERNA : .. . . . š 
onda se a; =y (i=1,...,n) zove vrijednost i-te uređajne statistike Y;. Prema 
tome, 1-ta uređajna statistika Y; (t=1,...,n) slučajna je varijabla koja pokazuje 
i-tu po veličini vrijednost, kada se izvede n nezavisnih mjerenja promatrane 
slučajne varijable X. Očigledno je 
Ta NINA mea e. ME MIKA aja 


Statistika 
(9) Ap = Vinpl+1 > O0<p<1|, 


gdje [np] označuje najveći cijeli broj koji ne premašuje np ("najveće cijelo" od np), 
zove se uzorački kvantil p-tog reda. Vrijednost 


(10) Tp = VuplHl = Tlup]41 


uzoračkog kvantila p-tog reda izračunava se, prema tome, tako da se u neopadajućem 
nizu danih podataka (8) uzme član s indeksom (rednim brojem) [np] + 1. Speci- 
jalno za p = 0,5 dobiva se uzorački medijan M i njegova je vrijednost na danom 
n-članom nizu podataka 


T441) Za neparno n 


(11) PPS Bu, oma na 

+1, Zapamon. 

Sada se nameće pitanje o svojstvima statistike X, iz (9), kao procjenitelja 

za nepoznati kvantil +,. Najzanimljiviji rezultat (v. [4]), koji se izvodi uz nešto 
složenije postupke, sastoji se u tome da za velike n približno vrijedi 


Ko Pu=p) 
1 Eee 


gljeje O = (rz ER: f(x) > 0), a f/ je pripadna f.g.v. 

Važna je činjenica, koja proizlazi neposredno iz (12), da je uzorački kvantil X, 
konzistentan procjenitelj za teorijski kvantil p-tog reda pripadne kontinuirane raz- 
diobe vjerojatnosti. "To opravdava postupak da se za velike n nepoznati kvantil =, 


lp = O i 


ta 


(12) EX, — 29)" 


aproksimira vrijednošću £,, procjenitelja BO LAEJE 


jea ad ninani 


| 
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Iz (12) se također razabire da će X, iz (9) biti slab procjenitelj za repne 
kvantile određenih vjerojatnosnih razdioba. Ako je, naime, p blizu jedinice, onda 
je u mnogim važnim vjerojatnosnim razdiobama (normalna razdioba, j-razdioba, 
F-razdioba i sl.) =, vrlo veliko, a f(z,) vrlo maleno (p—> 1 => <1p —>o > f(t,) > 
—> 0), pa (12) pokazuje da će očekivana kvadratna greška, u tom slučaju biti vrlo 
velika. 

Prema tome, procjena repnih kvantila, u takvim situacijama, pomoću procje- 
nitelja definiranih formulama (3) i (9), ima smisla samo onda ako je broj podataka 


(n) vrlo velik (v. zad. 5). 


Slika 41. Grafički prikaz repnog kvantila 


3. Intervali povjerenja za kvantile 


Da bi se egzaktnije uočila veličina greške pri procjeni nepoznatog kvantila z,, 
razmotrit će se problem određivanja intervala povjerenja zadane pouzdanosti y u 
neparametarskom inodelu. Ako su vrijednosti u nizu izmjerenih podataka poredane 
po veličini, kao u (8), i ako je vrijednost procjene £, definirana kao u (10), onda se 
prirodno nameće ideja da se kao vrijednost rubova intervala povjerenja za nepoznati 
parametar a, uzmu : 

(13) YI == de ) Dez hi ) 

gdjeje vr =([np]+1,a k € N odrediti će sa tako da interval povjerenja [G1, G2| ima 
zadanu pouzdanost 1(0 < 1 < 1). Prema tome, lijevi je rub g, intervala povjerenja 
za £, vrijednost (r—k)-te, a desni vrijednost ("+&)-te uređajne statistike. Stavi li 
se r=k =a rn+k = j, zadatak se može formulirati tako da se zahtijeva određivanje 
prirodnih brojeva zi j(q < j) takvih da slučajni interval [Y,, Y;] pokrije nepoznati 
kvantil r, bar s vjerojatnošću 7. | 

Budući de je u; vrijednost slučajne varijable Y;, koja označuje 2-tu po veličini 
izmjerenu vrijednost u danom n-članom slučajnom uzorku, a 2; vrijednost slučajne 
varijable Y5, koja označuje j-tu po veličini izmjerenu vrijednost, riječ je o tome da 
se za fiksirane n (veličina uzorka), p (red kvantila) i y (pouzdanost) odrede prirodni 
brojevi t1 1 (t<)), tako da vrijedi 


(14) POPE E SJ 


Pri čemu će se, naravno, težiti da t1 3 budu međusobno što bliži. 
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Terneljna činjenica koja omogućuje rješenje postavljenog zadatka sadržana je 
u formuli | 


Zn - B(n,p). 


PMća;šv)ePG<L<9) 


Formula (15) pokazuje da je vjerojatnost da interval [K;,Y51, sa slučajnim 
rubovima Gi=MiG2=Yj, pokrije kvantil z,, nepoznate kontinuirane razdiobe 
vjerojatnosti, jednaka vjerojatnosti da binomna slučajna varijabla Z,, poprimi vri- 
jednost koja nije manja od 7, a manja je:od j. : 

Da bi se dokazala ispravnost formule (15) rezonira se ovako: Nejednakošću 
Yi : Zp < Y; opisan je slučajni događaj koji je ekvivalentan simultanom nastupanju 
slučajnih događaja 
(16) (M<aph do >). 

s M (A < 2, ) označuje događaj da je pri mjerenju slučajne varijable X 
dobivena vrijednost koja nije veća od £,,, a 2, neka označuje broj nastupa događaja 
A prilikom n nezavisnih ponavljanja toga mjerenja. Može se reći da Z,, označuje 
broj onih vrijednosti (rezultata mjerenja) u n-članome slučajnom iorku koje nisu 
veće od die Budući da događaj (X; < zp) iskazuje da :-ta uređajna statistika 
nije veća od =y, taj je događaj ekvivalentan događaju (Z, > i). Događaj 1Y; > 
2 ph iskazuje da j-ta uređajna statistika nije manja od Zp, pa je tom dorada 
ekvivalentan događaj (2, < j). Očigledno je da se nejednakosti Za ži1iZa < 
< ] mogu zapisati i kao t < Z, < j, čime je dokazano da su (Y; <=, < Y;) l 
< Žu srl ekvivalentni slučajni događaji. Pe 

duče jerolatnost događaja A je P(A) + P(X < 29) = Play) = p. Budući da 
na sre la Ze OSCE broj pojavljivanja događaja A, vjerojatnosti p, pri- 
likorn n nezavisnih ponavljanja slučajnoga eksperimenta (mjerenja slučajne vari- 
da. a onome što je rečeno u 1V.3. slučajnoj varijabli Z, pripada bi- 

razdioba s parametrir 11 | je dok 
Be 1 nai kk nip. Time je dokazana tvrdnja formule (15), pa 


1-1 
5 s :(/ Nn : : 
(17) P(Gi < Ty <a) = (grape = 13 


k=i 


što pokazuje da intervalu, sa slučajnim rubovima Gy = Yi; i G2 = Yj, pripada 
pouzdanost y, kao intervalu povjerenja za nepoznati kvantil p-tog reda 2 

Prema tome, da bi se odredio interval povjerenja unaprijed zadane pouzdanosti 
Smak dau ea, enja oka 
Peka Mu ine a , treba najprije odrediti cijele brojeve 2 i j tako 


J 


18 i : 
( ) P(a < Zn < 3) > mi ) Za di B(n,p) , 
uz najinanj ioguću razliku : ičini 

.Najimanju moguću razliku j — t. Zatim se t-ta po veličini vrijednost zi = g 
uzima kao donji, a j-ta vrijednost a/ = g iz uređeno lučaj akšo i 
nk one? i : st Zi 2 1z uređenoga slučajnog uzorka kao gornji 

: e s a [41,92] pouzdanosti 7. 
a odreć , ssa Penna pj . a + . “ $ “ š . 

Pa: eđivanje vrijednosti i 1 u konkretnim primjerima mogu se primijeniti 
ablice binomne razdiobe (v. tabl. 1. u Dodatku) 


. 
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XIV.3 Intervali povjerenja za kvantile 


U tabl. 1. navedene su vrijednosti za ć i j pri procjeni nepoznatog medijana 
M = zo;5 uz pouzdanost y = 0,95, u ovisnosti o veličini uzorka n. 


Tablica 1. 


Tako, na primjer, ako je n = 30, onda za donji rub intervala povjerenja pouz- 
danosti 95 % treba uzeti desetu, a za gornji rub dvadeset prvu po veličini vrijednost 
iz uređenog niza od 30 mjerenja promatrane slučajne varijable. 

Zanimljivo je primijetiti da je, prema (11), u ovom slučaju m = zl6, t. vrijed- 
nost neparametarskog procjenitelja za nepoznati medijan M ne nalazi se nužno u 
sredini pripadnog intervala povjerenja. 

Za velike n postupak određivanja rubova intervala povjerenja može se po- 
jednostavniti, uz primjenu činjenice da se tada binomna razdioba B(n,p) može 
aproksimirati normalnom razdiobom N(np,np(1—p)) (v. zad. 27. u VI. poglavlju). 
Stavi li se, naime, u (18) i=np—kij=np+k, može se pisati 


Pnp-k<Za<np+k)>1, 


pri čemu se uzima da približno vrijedi Zn — N(np,np(l —p)), iz čega proizlazi 


el ==) -1>v9. 
np(1 —p) 
odnosno 
a(1+1 
(19) k>ko= vnp(l—p) 2 (+) s &vupi=p 


gdjeje 2, = 07! 


tabl. 1. u VILI. 
Prema torne, interval povjerenja pouzdanosti 1 za nepoznati kvantil p- 


v+1l\ soo , . me : ' 
SORA Za uobičajene vrijednosti 1 veličina 2 prikazana je u 


tog reda 


približno ima rubove 
(20) =, Mm=E),: 
gdje je io cijeli broj najbliži broju np — ko, a jo cijeli broj najbliži broju np + ko. 
Ako se, na primjer, želi odrediti interval povjerenja pouzdanosti 1 = 0,99 za 
medijan M, na temelju n = 100 mjerenja promatrane kontinuirane slučajne vari- 
jable, onda je p= 0,5 i 2, = 2095 = 1,96, dok je vVnpil—p) = V/25 = 5, tako da 
je ko = 9,8, iz čega slijedi da je gi = žho 1 92 = T60, ti. lijevi je rub četrdeseta, a 
desni rub intervala povjerenja pouzdanosti 95 % za medijan šezedeseta po veličini 
vrijednost u danom nizu od 100 mjerenja promatrane kontinuirane slučajne vari- 
jable. 
Žele li se odrediti intervali povjerenja pouzdanosti 95 % za kvartile 29,25 1 
Z9,75 promatrane kontinuirane razdiobe vjerojatnosti (v. IV.4), uzet će se naj- 


prije p= 0,25 i prema (19) izračunati pripadni ko = 20,95 v/ 100: 0,25 + 0,75 
a 1,96 - 4,33 = 8,49, pa iz (20) dobivamo 


PRN nm m ra en s 


ree NIN 
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ih / 
Ji > <i7, 12 = 233, 


: znači da se sedamnaesta vrijednost u uređenom nizu od 100 podataka uzima kao 
C Sui rub,a trideset treća vrijednost kao gornji rub intervala povjerenja pouzdanosti 
95 % za nepoznati lijevi kvartil zy 25. 
Na sličan bi način našli i granice intervala povjerenja za desni kvartil zo 75 (v. 
zad. 7). | 
Primjenor I lokiva nine; ma < m 
\mjenom formule (10) dobivaju se, inače, točkaste procjene za kvartile, što 
bi u ovom slučaju dalo 


ds ll A 
t0,25 = 126 = 29%, 20,75 = 976 = T76, 


što pokazuje da je dvadeset šesta vrijednost u uređenom nizu od 100 podataka 
procjena za lijevi kvartil, a sedamdeset šesta za desni kvartil. 


4. Test predznaka 


U vezi s kvantilima kontinuirane razdiobe vjerojatnosti logično se odmah 
postavlja zadatak testiranja hipoteza o kvantilima. Neka F' označuje f.r.v. kon- 
tinuirane razdiobe vjerojatnosti iz koje potječu dani podaci z,,...,Z, i neka su 
aa g R) 1 Po(0 < po < 1) zadani brojevi. Tada se može postaviti zadatak 
konstrukcije test: tirani shi | jen a 
2. ia din a testiranje nul-hipoteze MH, : Tpo = Zo, prema nekoj od alter- 

A 1 , € P . m kw» - . x Li a LI 1 
ae nn (Hr: "pa f£to Mi: < zo Hi: Tpo > Zo). Nul-hipotezom 
ističe se slutnja da kvantil po-tog reda ima vrijednost zg. Ako Je to istina, onda 
vrijedi jednakost 


(21) Fiao)=p, 

1 obratno. Možemo, dakle, nul-hipotezu zapisati i u obliku 

(22) M:F(ty)=p, 

pa se problem testiranja hipoteze Hy može shvatiti i kao provjera, pomoću danih 


podataka, slutnje da intervalu (—og, Zo] pripada vjerojatnost Po, a intervalu [z9, 00) 
vjerojatnosti 1 — py. 


I 


n—1 n 


Slika 42. Skica problema testiranja hipoteze o kvantilu 
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Sjetimo li se Pearsonova teorema (v, IX.1), odimah nam se nameće ideja da 
se zadatak formulira kao primjena hikvadrat-testa (r = 2), tj. kao testiranje nul- 
-hipoteze 


(23) Ho:(Pr=po, po=1—Po), 
pomoću test-statistike (v. (7) u IX.1) 


_ (AA) (R- 6) 


2 pe 2 


gdje su g = npo 1 nik = n(l — po) teorijske frekvencije, a Fri Fo="n—f, 
empirijske frekvencije, tj. broj podataka n-članog niza statističkih podataka u in- 
tervalu (—oo, 9], odnosno u intervalu (z9,00). Dobije li se prevelika vrijednost d, 
test-statistike D iz (24), hipoteza Hy će se odbaciti. Uzme li se razina značajnosti 
a, hipoteza Hy se odbacuje pri 


(25) d>Hr'(1-a), 


gdje Je Hi f.r.v. za hikvadrat-razdiobu s jednim stupnjem slobode (v. tabl. VI. u 


Dodatku). | 

Poznato je da Pearsonov teorem zahtijeva veliki broj podataka (n > 09), pa se 
prirodno postavlja zadatak nalaženja testa koji! neće imati navedeno ograničenje. 
To se zaista lako postiže, ako se kao test-statistika uzrne slučajna varijabla Z,,, 
koja označuje broj članova u n-članom nižu podataka koji nisu veći od go, odnosno 
broj nenegativnih članova u nizu to — Zi,t0—22,...,Z0 — Zn. Očigledno je da u 
uvjetima istinitosti hipoteze Hy vrijedi 


(26) | Zoo2 B(n, po) ' 


Međutim, bez obzira na istinitost hipoteze Hy, slučajna varijabla Z,, — B(n,p) 
(0 < p< 1), pa se za Z, očekuje vrijednost E[7,] = np. Ako hipoteza Hy stvarno 
nije istinita i ako je, recimo, +, mnogo veće od zg, tj. ako je p = F(z0) mnogo 
manje od po, onda se može očekivati mnogo imanja vrijednost test-statistike 7, od 
npPo-. 

Postavi li se zadatak da se testira Ho : 2) S 29, prema alternativnoj hipotezi 
Hi: Zp, > Z0, UZ razinu značajnosti a, kritično će područje biti oblika 


(27) Ci = (-00, Ci] ) 


gdje je c, određeno tako da vrijedi 


Na boji 
(28) ja Geta mo) ee 


k=0 


Dobije li se, na danim podacima, vrijednost z, test-statistike Z, iz skupa Ci, to 
pokazuje da treba posumnjati u nul-hipotezu. U uvjetima istinitosti hipoteze Hy 
očekuje se, naime, da broj podataka koji nisu veći od 2,,, tj. broj uspjeha" u 
Bernoullijevu nizu pokusa uz vjerojatnost pg, neće biti premalen (manji od kritične 
vrijednosti c, određene zahtjevom (28)). 
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| Uzme li se hipoteza H, : Too < Zb, kao alternativna hipoteza, ona se može 
zapisati 1 kao Hi: F(z9) > po, pa će kritično područje, očigledno, imati oblik 


(29) C2 = [e2, 00), 


gdje je co određeno tako da vrijedi 


(30) “> BRET —po)"*=a. 


k=c2 


Prevelika vrijednost Zn test-statistike Z,, iz (26) upućuje na odbacivanje nul- 

hipoteze da je kvantil po-tog reda jednak broju zyg i sugerira prihvaćanje alter- 

nativne hipoteze da je kvantil po-tog reda manji od broja zg. 

sgjpz Hi: Zp, Ž zo kao alternativnu hipotezu, kritično će područje biti 
ca i 

(31) Co = (—09, ci] U [c2, 00) , 

gdje su cy i c2 (€; < co) određeni tako da vrijedi 


< > /n POI E . n 
(32) m po (1 — po) => u (1 po =5. 


Primjedba 


: Očigledno je da, zbog diskretnosti binomne razdiobe, neće uvijek biti moguće 
< . . eg . JO k « , . . 

naći . rješenje jednadžbi (28), (30) i (32), pa će se zato uzeti one cjelobrojne 

vrijed nosti Za CL i c2 koje daju najbliže vrijednosti odgovarajućih zbrojeva zadanoj 

razini značajnosti a. | 


2. Primjer 


Nekajen = 10 1 Po = 0,5, pa treba odrediti kritično područje razine značajnosti 
a = 0,10 za testiranje hipoteze Hg: M = 0 (M = 95), prema alternativnoj 
hipotezi H, : M £ 0. Da bismo odredili cy i e» iz (32), primijetimo dajezapo =0,5 
binomna razdioba B(10;0,5) simetrična razdioba, tako da je dovoljno naći c . 
jetada co =n—ci. | | sk 
Pogleda li se tabl. I. u Dodatku, vidi se da je 


, 
> (10\. ESAD 
2 Jos Lai >3 (Jos = 0,0547, 


k=0 kak 


) 


tako da kritičnom području oblika (31), uz cu =2i (2=10—2=8, pripada razina 
značajnosti 2. 0,0547 = 0,1094 1 to je najbliže traženoj razini značajnosti a = 0,10. 
Da smo uzeli a = 11 Ca = 9, dobili bisino 


1 : 
10 | 
X os“ = 0,0107 


k=0 


E 
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i tada bi kritičnom području (—oo,1] U [9,00) pripadala razina značajnosti 
2 . 0,0107 = 0,0214, što se mnogo više razlikuje od 0,10. 

Prema torne, ako se na 10-članome slučajnom uzorku dobije dva ili manje (sl. 
43a), odnosno osam ili više (sl. 43b) nepozitivnih podataka (mjerenja promatrane 
slučajne varijable), hipoteza da je medijan te slučajne varijable nula će se odbaciti, 
uz rizik od 10 % da se može odbaciti i stvarno istinita hipoteza. 

a) ore moran mn e rje re ae one 


1 1 1 1 [) U 1 1 [) / 
bi T2 I3L4T5 T6 T7 Ta Tg T10 


b) 


1 1 ! . 11 1 1 1 1 


Slika 43. Skica situacija u kojima se odbacuje nul-hipoteza 


Najčešća je primjena testa predznaka baš za p = 0,51 zg = 0, tj. testiranje 
hipoteze o tome da je medijan nula, prema nekoj od spomenutih alternativnih 
hipoteza. Osim toga, niz statističkih podataka £1,...,ZTn obično je dobiven kao 
Tj = ui — vi, pri čemu se pretpostavlja da uređeni parovi (u;,w;) (t=1,...,n) 
potječu od nezavisnih kontinuiranih slučajnih varijabli U; i V; sa zajedničkom raz- 
diobom vjerojatnosti. U tom je, naime, slučaju X; = U; — V; kontinuirana slučajna 


vo... 


naravno, nula. 

Stoga se zadatak o provjeri slutnje da spareni podaci (u;,w;) (it = 1,...,n) 
potječu od nezavisnih slučajnih varijabli U; i V;, kojima pripada ista kontinuirana 
razdioba vjerojatnosti, formulira kao testiranje hipoteze da niz z; = u; — vi (1 = 
=1,...,n) potječe od vjerojatnosne razdiobe s medijanom nula. 

Pripomenimo da se ne pretpostavlja ista razdioba vjerojatnosti za slučajne 


varijable U1,...,U,, odnosno Vi, ..., Va. 


3. primjer 


Da bi se provjerila hipoteza o jednakoj kvaliteti auto-guma marke A i marke 
B, mjeri se broj prijeđenih kilometara do istrošenosti auto-gume. Izabrano je 10 
različitih vozila na koja su najprije stavljene gume marke A, a nakon istrošenosti 
guine marke B. Zabilježeni su ovi rezultati (u stotinama kilometara): 


Tablica 2. 


u; 


(marka A) 


Vi 


(marka B) 
sign(z:) 


Apstraktno-matematički gledano, zadatak je identičan onome u 2. primjeru, 
jer je riječ o tome da se testira hipoteza Hg : M = 0, prema alternativnoj hipotezi 
H,: M £0, na temelju danog niza od 10 podataka iz trećeg retka tabl. 2. Pitamo 


s 
“4 
ši 
4 
H 
E 
EZ 
K 
i% 
«a 
:đ 
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se, zapravo, smije li se zaključiti da se gume marke A i marke B značajno razlikuju 
po kvaliteti ako se od deset izvršenih injerenja u tri slučaja pokazalo da je auto- 
-guma marke A lošija od auto-gume inarke B. 

U 2. prinijeru izveli smo da kritičnom području: (—oo, 1] U [9, 00) pripada ra- 
zina značajnosti 2,14 %, a kritičnom području (—o9,2] U [8,00) pripada razina 
značajnosti 10,94 %. Za kritično područje (—oo,3]U[7,00) nalazi se da je pripadna 
razina značajnosti 34,38 %. 

Budući da je vrijednost test-statistike ži0 = 3, vidi se da, uz uobičajene razine 
značajnosti (5 % ili 10 %), nul-hipotezu (ne postoji značajna razlika u kvaliteti 
auto-gurma marke A i B) treba prihvatiti. 

Dobra su svojstva razmotrenog testa, tzv. testa predznaka, da je vrlo jedno- 
stavan za primjenu, jer praktički ne zahtijeva nikakva računanja, a valjan je uz 
minimalne teorijske pretpostavke. Očigledno je, međutim, da se u testu predznaka 
ne upotrebljava velik dio informacije sadržane u danim statističkim podacima, jer 
se iskorištava samo predznak razlike u; — vi, a ne 1 apsolutna vrijednost. U po- 
dacilna inora postojati jako izražena tendencija *pomicanja udesno, ili ulijevo“ da 
bi se donijela odluka o odbacivanju nul-hipoteze, uz uobičajene razine značajnosti. 
Moramo konstatirati da se nul-hipoteza vrlo olako prihvaća. 

Izračunavanje veličina c; i ca prema formulama (28) i (30), odnosno (32), može 
se za velike n približno izvesti pomoću aproksimacije binomne razdiobe B(n, po), 
normalnom razdiobom N(npo,npo(l— Po)). U tom slučaju (28) 1 (30) postaje 


Ci = nNpo + d-'(a)y npo(1 kia Po) ) 
C2 = npo + e-'(1 = a) V npo(1 — po), 


(33) 
dok iz (32) proizlazi 
Ci =npo + p-! (5) npo(1 — po) 


Co = npo + p-! (1 —— =) V/npo(1 — Po) ' 


2 


(34) 


Zan = 50, po = 0,5 1 a = 0,05, iz (34) proizlazi, na primjer, da je cy = 18,141 
Co = 31,80, što znači da hipotezu o nultom medijanu prihvaćamo, ako broj članova, 
koji nisu veći od nule, u danom nizu od 50 podataka, bude između 18 i 32. 


5. Wilcoxonov test 


Wilcoronov test uklanja neke nedostatke testa predznaka, ali je primjenljiv 
. . . .. J . 
samo za testiranje hipoteza o imedijanu (Hg: M = My), uz pretpostavku da podaci 


TZi1,...,Zn potječu od simetrične kontinuirane razdiobe vjerojatnosti, tj. takve za 
koju vrijedi 
(35) I(M —«)=f(M+x=), r€R, 


gdje Je f pripadna f.g.v.,a M medijan. U terminima f.r.v. F', uvjet simetričnosti 
razdiobe zapisuje se 


XIV.5 Wilcoxonov test 3601 


(36) F(M -z)=1-F(M +2), ugi 


Bez gubitka općenitosti može se uzeti da je Mo = 0, tako da je riječ o nul- 


-hipotezi Ho: M = 0. Ako je, naime, Mo # 0, onda će se na niz podataka | 


t1— My,...; Zn — Mo primijeniti testiranje hipoteze Hg : M = 0. 

Prije nego formalno definiramo Wilcoxonovu statistiku W, opisat ćemo pos- 
tupak računanja njezine vrijednosti w, na danom konkretnom nizu od n = 10 
podataka: 


32. -=16 10. 21 =04: 15. =20 =01 12 0,9. 


Poredajmo dane brojeve po veličini pripadne apsolutne vrijednosti 1 načinimo 
tablicu 3. 


Tablica 3. 


Apsolutna 
vrijednost 


Redni broj u nizu apsolutnih vrijednosti zove se rang podataka. Rangovi pozi- 
tivnih podataka su 3,4,5,6,8 i 10, a rangovi negativnih podataka su 1,2,7 19. Vrijed- 
nost w Wilcoxonove statistike W dobiva se tako da se od zbroja rangova pozitivnih 
podataka oduzme zbroj rangova negativnih podataka. Dobiva se 


w=3+4+5+6+8+10—(1+2+7+9) =17. 


Općenito govoreći, svakom članu niza podataka pripada odgovarajući rang ri, 
koji označuje redni broj toga člana pri nizanju apsolutnih vrijednosti od manjih 
prema većima. Broj r; može se shvatiti i kao vrijednost diskretne slučajne varijable 
Ri, koja označuje rang člana X; u slučajnom uzorku (Aira Asi) 

Definirajmo slučajnu varijablu Z; tako da stavimo 


zla 0 
l, za Ki> 0 


) 


(37) Z; = 


i tada se slučajna varijabla 


(38) W=) ZR 


zove Wilcozonova statistika. 
Očigledno je minimalna vrijednost Wilcoxonove statistike 


nm +1 
Daloa —_(1+2+ PN) = a 
a maksimalna vrijednost 
n(m +1) 


dj;= TE Re 3 


dessker 
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U maloprije navedenom primjeru (n = 10) vrijednost Wilcoxonove statistike 
iznosi w = 17, dok je minimalna vrijednost —55, a maksimalna vrijednost 55, pa se 
postavlja pitanje da li dobivena vrijednost upućuje na prihvaćanje ili na odbacivanje 
hipoteze o nultom medijanu. | 

Ako je hipoteza Hg : M = Ostvarno istinita, onda se može očekivati podjednaki 
broj plusova (+) i minusa (—) kod velikih i kod malih, po apsolutnoj vrijednosti, 
članova niza danih podataka, što će rezultirati vrijednošću Wilcoxonove statistike 
blizu nule. Dobije li se w blizu Wmin, onda to znači da predznak minus preteže 
kod velikih, po apsolutnoj vrijednosti, članova niza podataka, što upućuje na za- 
ključak da podaci potječu iz vjerojatnosne razdiobe koja ima negativni medijan. 
Ako je pak w blizu Wmax, onda to znači da predznak plus preteže kod velikih, po 
apsolutnoj vrijednosti, članova niza podataka i stoga će to upućivati na prihvaćanje 
alternativne hipoteze H, : M > 0. 

Za određivanje kritičnog područja zadane razine značajnosti a, pri testiranju 
nul-hipoteze Hg : M = 0, prema alternativnoj hipotezi Hy : M < 0 (ili Hi : M > 0, 
ili Hy: M 0), nužno je poznavati razdiobu vjerojatnosti Wilcoxonove statistike 
W , definirane u (38), u uvjetima istinitosti hipoteze Hoy. 

Uočimo najprije da je W diskretna slučajna varijabla s pripadnim skupom 
vrijednosti (v. IV.1) 


l 
Aw=d-k,=k+2,.,k=2MH, +t= a ) 
pa ostaje da se odrede pripadne vjerojatnosti 
P(W=k-2i),  i=0,1,...,k. 


Jedan od načina zasniva se na sljedećim činjenicama: 


1. Iz pretpostavke da je promatrana (mjerena) slučajna varijabla kontinuiranog 
tipa, sa simetričnom oko nule razdiobom vjerojatnosti, proizlazi da je 


P(X<0)=P(Z=-I)=P(X;>0)=PZ=1)=05. 


Ž2. Zi,..., Zn nezavisne su slučajne varijable. 
3. Slučajne varijable fi, ..., Rn nezavisne su u odnosu na Zi,..., 2. 


Iz navedenih činjenica proizlazi da Wilcoxonovoj statistici W pripada ista raz- 
dioba vjerojatnosti (v. zad. 13) kao i slučajnoj varijabli 


(39) Va Ni y,, 


zi 

gdje su Vi,..., V, nezavisne slučajne varijable i vrijedi 

(40) Pv=v=Plks=sus05. Edi PM 

Za dani n > 2, skup Aw = Av _ ima 2 članova, tako da za n = 2 imamo 
Av =(-8-—1,1,37, 


i 
li 


ZA 
4 
4 
KI 
a 
E. 


XIV.5 Wilcoxonov test 303 
NIM... o a sa sui I o s 


pa neposrednom primjenom (39) 1 (40) dobivamo 
P(V=-3)=P(V=-1)=PV=1)= P(V =3) =0,25. 


I 1] ' čaj lj 10že, prema (39 
Svaka se, naime, vrijednost (—3,—1, 1,3) slučajne varijable V može, | (39), 
realizirati samo na jedan način. Tako je 


sJa=[f=2 =b=l=24 jse=l42, JEIg2: 


masi l 
Iz (40), pak, proizlazi da svakoj vrijednosti PIDEGI ue rd os | 
Slično se izrađuju tablice za vrijednosti 1 pripadne vjerojatnosti slučajne vari- 
jable V, odnosno W, zan = 3,4,... (v. tabl. 4). 


Tablica 4. 


Očigledno je da se povećanjem broja n sve više komplicira (v. zad. 14) 
izračunavanje vjerojatnosti za slučajnu varijablu V,, pa se logično a O 
približnoj razdiobi vjerojatnosti za velike n. Iz (39) i (40) odmah slijedi da je 


(41) EW]= E[V]=0, : 
n(n+1)(2n 
(42) DIW] = D[V] = ubo | 


: : : ' 
Imj anič : .8) može uzeti da za velike 
pa se, primjenom centralnoga graničnog teorema (v. VI.8) 


n približno vrijedi 


(43) Z=W — N(0,1). 


6 
n(n+1)\(2n+1) 


Pri testiranju hipoteze Ho : M = 0, prema alternativnoj hipotezi Hi: M < 0, 
kritično područje razine značajnosti a bit će određeno nejednakošću 


= u 


2 < e0'(a). 


(44) nEeD“ 


a 


Uzine li se Hr: M > 0, kao alternativna hipoteza, kritično je područje određeno 


nejednakošću 


2 > o6-'(1-a), 


(45) ĆU nin J2n+1) “ 
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. cn 


m... > o-! (1 a 
NOE SIOTESI E E 


mina: x : BAE o dk 
2 S. se , pa stoga 1 (44), (45) i (46), praktički primijenjuju za n > 20, pri- 
: U ro 1 ši dot iz tabl. 3. Imalismon = 101iw=17,1z čega se dobiva 
= 0,866. Uzme li se a = 0,05 > o-! = = 
He ( ) : se a = 0,05, dobiva se b-!(a) = —1,65, e-'(L—a) = 1,651 
sg 3/7 96 , pa se, na temelju (44), (45) i (46), zaključuje da nul-hipotezu 
Mea ao u odnosu na svaku od tri navedene alternativne hipoteze. Vrijednost 
# = 4 ilcoxonove test-statistike W ne daje osnovu za odbacivanje hipoteze da 
Je medijan pripadne vjerojatnosne razdiobe nula. ni 
. Do istog rezultata došlo bi se i primjenom tabl. IX. iz Dodatka, gdje su 
io dane vrijednosti za rubne točke kritičnog područja, izračunane nA temelju 
: sk an vjerojatnosti Wilcoxonove statistike W. Tako, na primjer za 
| se a _ če : : ) še] 
um La 0,05 odčitavamo c = 39, što znači da je (—o9,—39] U [39, oo) 
itično područje pri testiranju hipoteze Hg : M = 0, prema alternativnoj Hipolesi 


Hi: M £0. Budući da vrij 
1 da vrijednost w = pm se? 
razloga da se odbaci Hy. : PE NIC IM rana 


(46) ol 


Primjedba 


di e 7 primjenjuje samo na kontinuirane 
po apsolutnoj vrijedugsti ma Moa o dia Ba dau odi poje u en 
ah Po 1, | S I S vjerojatnošću nula, što praktički znači 
Da ž Lo pak ih činova u pripadnom nizu apsolutnih vrijednosti 
dak. E A RA ipak Imogu pojaviti jednaki članovi (nepreciznost 
ME aaa i po: ab pAtenje kako pridružiti odgovarajući rang jednakim 

oga niza. Kako se to radi objasnit ćemo (v. tabl. 5) na nizu podataka 


0,3 —0,5 0,2. —0,7 03 07 0,8. 


Rang 3 za čl : ' 

. lanove 0,3 : salta mami mE ' ia ' 

Mame om 93, 0,5, ik e je tako da je uzeta aritmetička sredina 
' , 914. ISto tako Je Tang 9, đ 1 I prao : +. . 

određen tako da j aka S oseke 0,710,7 niza apsolutnih vrijednosti, 
đen tako da je uzeta aritmetička sredina brojeva 5 1 6. 


Tablica 5. 


Niz apsolutnih 
vrijednosti 


| 
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A. primjer 


Da bi se na praktičnu situaciju 12 3. primjera primijenio Wilcoxonov test, 
potrebno je naprije izračunati razlike (z;) brojeva iz prvog i drugog retka tabl. 2, 
čime se dobiva niz podataka 


O 9 15 =37 20 18. 18 14 20; 
iz čega proizlazi tabl. 6 | 


Tablica 6. 


Niz apsolutnih 
vrijednosti 


Gada možemo izračunati vrijednost Wilcoxonove statistike 


w=1+2+3+55+7+8+9—(4+5,5 + 10) = 16. 


Budući da je riječ o testiranju hipoteze Ho: M = 0, prema alternativnoj 
hipotezi Hy: M £ 0, uz razinu značajnosti od 10 %, možemo primijeniti tabl. IA. 
iz Dodatka (n = 10,a = 0,10), iz koje se odčitava da je pripadno kritično područje 
(—oo, —33] U [33,00), pa zaključujemo da hipotezu Ho ne treba odbaciti. 

Kao i primjenom testa predznaka, 1 primjenom Wilcoxonova testa zaključuje 


se da ne postoji značajna razlika u kvaliteti auto-guma marke A i marke B. 


6. Mann-Whitney-Wilcoxonov test 


U IX.6. opisana je primjena hikvadtat-testa pri testiranju hipoteze o jednakosti 
dvije diskretne razdiobe vjerojatnosti, uz napomenu da se ta metoda može primije- 
niti i na kontinuirane razdiobe vjerojatnosti, tako da se podaci prethodno grupiraju 
u razrede. Budući da je grupiranje podataka u razrede, zbog teorijske neuteme- 
ljenosti, nepoželjan proces, a sama primjena hikvadrat-testa zahtijeva velik broj 
podataka, svakako je poželjno imati test za testiranje hipoteze o jednakosti vjero- 
jatnosnih razdioba, koji će zahtijevati slabije pretpostavke. 

Neka su, dakle, kao i u IX.6, Z1,...,)7m i Vi,...<,Vn dva niza podataka koji 
h slučajnih varijabli X i Y, kojima pripadaju 


potječu od nezavisnih kontinuirani 
Postavlja se zadatak konstruiranja testa za 


funkcije razdiobe vjerojatnosti F1 G. 
testiranje nul-hipoteze 


(47) H:F(x)=G(z2), VWz€R, 
prema alternativnoj hipotezi | 


(48) H,: F(x) < G(e) ili (+) > G(r), \remR. 
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> Primijetimo da se kao alternativna hipoteza pojavljuje 
jevo, odnosno udesno, jedne razdiobe vjerojatnosti s obzirol 


| Test-statistika će se ovdje definira 
nizu podataka 


iskaz o translaciji uli- 
ć n na drugu. 
tl pomoću rangova podataka u združenom 


(2) kl. _ Žm+n 


koji je načinjen tako da su nanizani po veličini članovi nizova 


(x) L1,...,2m 
] 
(y) UI aii 


. se da podatak a g ma m + n) ima rang r. 

| retpostavimo da je m <n, pa će se zbroj rangova svih članova niza (x) 
uzeti kao vrijednost statistike W. 
95. primjer 

Uzmimo da je niz iksova 
(x) 29.37 20 41 50 (mh 
a niz ipsilona | 
(y) 5. 43 34 65 90 85 75 21 (n=8). 


Združeni niz podataka poredanih po veličini (niz zeova) glasi 


(z) 20 24 34 35 37 41 43 90.55 65 75 85 90. 


Uoči li se u tom nizu samo pripadnost dotičnog čl 


AIR RONU ana nizu (x), odn 
(y), i pripadni rang, dobiva se tabl. 7. o), kk 


Tablica 7. 


Vidimo da članovi niza (x) imaju u nizu (2) 


niza (y) imaju rangove 2,83,4,7,10,11,12 i 13 
jest | 7 . 


rangove 1,5,6,8 i 9, dok članovi 
Pripadna vrijednost test-statistike W 


W=1+5+6+8+9=29, 


pa se odmah postavlja pitanje da li Paid 
25 pitanje da li ona m. pa Rame jem : TE . 
Hy. Je de imdicira odbacivaje ili prihvaćanje hipoteze 


Ko 
E 


AM VETE SVN PRAG Rt 
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Općenito se najinanja moguća vrijednost tWmin test-statistike W dobiva onda 
kada je svaki član niza (x) manji od svakog člana niza (y) i tada je 


m m(m +1) 
tUYUmin =1+2+...+m= šao sik 


Odmah se vidi da najveća moguća vrijednost test-statistike W glasi 


m | m(m +1) 
Umom A ang nem meno 


a postiže se onda kada je svaki član niza (x) veći od svakog člana niza (y). 
Test-statistika W očigledno je diskretna slučajna varijabla s pripadnim skupom 
vrijednosti 
M = Pin: Wmin + kh +... tima) ) 


koji u konkretnom primjeru glasi 
AG = (15,16,17,...,94,55). 


U uvjetima istinitosti hipoteze Ho ne očekujemo ni premalene ni prevelike 


vrijednosti test-statistike W. Da bi se moglo egzaktno odrediti kritično područje 
zadane razine značajnosti, treba poznavati razdiobu vjerojatnosti slučajne varijable 


W. Za malene m i n mogu se, vrlo lako, izračunati vjerojatnosti P(W = k), k € Ag, 
(v. zad. 17), neposrednim prebrajanjem svih mogućih ishoda i svih povoljnih ishoda 


za događaj (W = Ah .. 
Za velike m 1 n, pak, približno vrijedi da u uvjetima istinitosti hipoteze Hg 


(49) W N(4g,05) ' 
gdje je 


mm+n+1) 2 mn(m+n+1) 


Ako je hipoteza Hy stvarno istinita, onda se očekuje dobivanje vrijednosti uw, 


test-statistike W, u intervalu (cy, c2) (Ci < c2), za koji vrijedi 


Pm 


(51) P(W < ci) = P(W > 62) = 


|R 


tako da će kritično područje razine značajnosti a biti (—oo, ci] U [c2, 00). 

Veličine c, 1 cx, za malene m i n, prikazane su u tabl. X. u Dodatku, dok se za 
velike min (m,n > 10) mogu dobiti primmjenom (49) i (50). 

Uzmu li se podaci iz 5. primjera (m =5,n = 8), odmah se vidi da je ci = 231 
C2 = 47, što znači da je (—oo, 23] U [47, 00) kritično područje pri testiranju hipoteze 
Ho (podaci potječu od iste razdiobe vjerojatnosti), prema alternativnoj hipotezi 
Hi (postoji translacija jedne razdiobe s obzirom na drugu). Budući da dobivena 


vrijednost (w = 29) test-statistike W ne pada u kritično područje, nema razloga za 
odbacivanje hipoteze Hy. 
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7. Medijan-test 


Za testiranje hipoteze Hg, da podaci Pineta đa Tj Vn Potječu od 
slučajnih varijabli X_1Y kojima pripada ista Pažiloba Vse jatno ii Kina al 
ternativnoj hipotezi Hi, da postoji translacija jedne razdiobe s obzirom a dru e 
može se iskoristiti 1 test zasnovan na statistici V, koja ima značenje broja dl rooa 
niza (x) u lijevoj (donjoj) polovini niza (2) ((x), (y) i (z) definirani su u XIV 5). 
m+n 


Ako je m +n paran broj, onda je jasno da lijevu polovinu čini prvih članova 


. ra me mmm ' ' 2 m+n— 
za(z),aakojem+n neparan broj, ouda ćemo prvih nn članova niza (z) 


smatrati lijevom polovinom niza (z). Stavimo stoga 
m+n 
3 , Za m + n parno 


m+n—1 
ši. zaze ;) Za m + n neparno. 


(52) k = 


E En em 
Je hipoteza Hy stvarno istinita, onda se 


ž ne očekuje ni premalena ni pre- 
velika vrijednost v statistike V. Očekuje se pribli 


, m . : 
| žno — iksova u svakoj polovini 
nara e VR et > £ , 

(2). Kada bi se Pojavio premali, ili preveliki, udio iksova u lijevoj polovini 


niza la bis lo očekivati c ječ 
(2), onda bi se moglo očekivati da oni potječu od razdiobe vjerojatnosti koja je 


Očigledno je V diskretna slučajna varijabla kojoj pripada skup vrijednosti 
: 
(53) Av=(40,1,...,minfm,k)), 


dok su pripadne vjerojatnosti (v. zad. 19) dane formulom 


(94) mam o69) v € Av. 
CE) 


Formulama (53) i (54) definirana ; | J 
| 5: : aje tzv. hipergeometrijska razdi - 
trima m, nik(mnkEN,k<m+ n) (v. 34). ' zona 
Test utemeljen na statistici V zove se međijan-test. 


F a (5 u] 
| ee (54) omogućuje da se, za danu razinu značajnosti a, bar približno 
odrede brojevi ci i c2, tako da vrijedi 


cr 


(55) | PV<a)=PV>e)=5. 


Poznata je činjeni ' 
. I * Cinjenica (v. [11]) da se za velike min hipergeometrijska razdioba 
e aproksimirati normalnom razdiobom N(4uv,o?2), gdje je 
) ) . 


km IJ 
G8)  sv=EWj= 2, o) =DiVje onim nk) 
+n (MN +n)?(m+n—1)" 


E. 
CE 
Ž 
ž 
a 
1 


| 
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što bitno olakšava određivanje rubova c; i co kritičnog područja, prema zahtjevima 


(55). 


node ple i as ; m +n 
Forinule (56) postaju još jednostavnije kada je k = 


. Tada je 


m mn 


(56a) Me DIME an SD 


Dobije li se, na danim podacima, vrijednost v, test-statistike V iz intervala 
(Ci, c2), hipoteza Io će se prihvatiti, dok će se u protivnom odbaciti. 

Ako se sumnja samo na mogućnost pomaka ulijevo razdiobe vjerojatnosti 
slučajne varijable X, s obzirom na razdiobu vjerojatnosti slučajne varijable Y, 
onda će se nul-hipotezi Ho : F(a) = G(=), kao alternativna postaviti hipoteza 
Hir: F(z) > G(z) i tada će kritično područje biti interval [c, oo), gdje je c određeno 
uvjetoln 
(57) PV. 6) = a: 

Kada se dobije previše iksova (više od c) u donjoj polovini združenoga uređenog 
niza podataka, hipoteza Hy će se odbaciti i prihvatiti hipoteza Hi. 


6. primjer 
Mjerenjem slučajne varijable X dobiven je niz od m = 9 podataka 
(x) 45 50 52 44 57 53 55 53 54, 
a mjerenjem slučajne varijable Y niz od n = 11 podataka 
(y) 99 39 47 59 44. 62 61 62 64_ 54 49. 


Može li se smatrati da oba niza potječu od iste razdiobe vjerojatnosti? 

Zadatak se, naravno, može formulirati kao testiranje hipoteze Hy iz (47), uz 
razinu značajnosti, recimo, a = 0,05. U tu svrhu formirajmo združeni niz (z), po 
veličini poredanih podataka 


39 44. 44. 45 47 49 50 52 53 53 


(2) 2 y x y X y y X X X X 
: 54. 54. 55 57 59 61. 62 _ 62 _ 62 64 
X M X X y y s nA y y- 

m+n 


U danom je prinijeru & = = 10, pa odmah vidimo da među prvih deset 


2 
' i, bod ne m 
članova niza (2) ima v = 6 članova niza (x), a očekuje ih se se 4,5. 

Da bi se odredilo kritično područje zadane razine značajnosti na temelju test- 
-statistike V, uzet ćemo da približno vrijedi V < N(uw, oy), gdje je, prema (56a), 
uv =4,5 i o; = 1,30. Iz (55) se tada dobiva 
s) rav e 144(-1,96) +45 =2,27, 


DJ 


Cr = GV o! 


a u 
ce = av e! (1— 5) +; m 1,14 :1,9644,5 = 6,73, 


m 
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m ——-—————_———?L-___ 


tako da je kritično područje (—o9; 2,27]U[6,73; 00), pa vidimo da vrijednost (u = 6) 
test-statistike V ne pada u kritično područje, što upućuje na prihvaćanje hipoteze 
o jednakosti vjerojatnosnih razdioba slučajnih varijabli X i Y. 

Zanimljivo je primijetiti da bismo za testiranje hipoteze Ho mogli primijeniti 
i hikvadrat-test, onako kako je to opisano u IX.6. Mogli bismo, naime, smatrati 
da prvih deset članova niza (z) pripada prvom, a preostalih deset članova drugom 
razredu, pri grupiranju podataka u razrede (r = 2). 

Frekvencija iksova u prvom razredu je hi = 6,a u drugom hh = 3, dok su 
odgovarajuće frekvencije ipsilona g, = 4i92 = 7. Izračuna li se vrijednost d 
test-statistike D (formula (42) u IX.6), dobiva se 


de E (nfi - mgi)“ : [nfo mg2)t | _ 
Ro NEI + o fh+9 
l 


— (11:6 —9- 2 Dra o = 
TETI L( 4) +(11:3—9:7) "| 181. 

| U IX.6. navedeno je da statistici D, uz uvjet istinitosti hipoteze Hy, pripada 
hikvadrat-razdioba sa r — 1 stupnjeva slobode, što u ovom slučaju (r = 2) znači da 
je kritično područje određeno nejednakošću 


d> H'(1-a) = H71(0,95) = 3,84. 


Odmah se vidi da dobivena vrijednost (1,81) test-statistike D ne pada u kritično 
. e. “ 2 . * . i . . pa . . . 

područje [3,84; 00), pa se i ovim testom sugerira zaključak o jednakosti promatranih 
razdioba vjerojatnosti. 

Određenom prilagodboni opisani se test može iskoristiti i za testiranje hipoteze 
O stacilonarnosti niza podataka, prema alternativnoj hipotezi da postoji određeni 
trend pri nizanju podataka z1,...,Zn. Pretpostavimo da Jjen=2m(mE€EN), pa 
se tada dani niz podataka može rastaviti na dva podniza 


(L) L1l, o Tim 


(D) GR NA a z 


Neka slučajna varijabla V označuje broj onih članova podniza (L) koji su manji 


od vrijednosti uzoračkog imedijana m (v. (11)), pa se odmah vidi da je V diskretna 
slučajna varijabla kojoj pripada skup vrijednosti 


(58) Av = g m 
a u uvjetima istinitosti nul-hipoteze Hy ((Injerenja potječu od nezavisnih slučajnih 


varijabli iste razdiobe vjerojatnosti) slučajnoj varijabli V pripada diskretna razdi- 
oba vjerojatnosti zadana formulom 


m m 
bi ' g 2 J 
2m! ' da 
( m | 


1 


(59) P(V=v) = 


(60) EVI=5,  pivi= 
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Usporedbom (58) i (59) sa (53) i (54) vidi se da su formule (58) i (59) posebni 


slučaj formula (53) 1 (54), t). da se radi o hipergeometrijskoj razdiobi, pa iz (56a) 
proizlazi da je u ovom slučaju 


m? 


4(2m — 1). 


Odrede li se rubovi ci 1 co(Cy < c2) kritičnog područja razine značajnosti a na 


temelju (55) i (59), odnosno na temelju aproksimacije hipergeometrijske razdiobe 
odgovarajućom normalnom razdiobom, hipoteza Hy prihvatiti će se onda kada vri- 
jednost v, test-statistike V, padane u interval (ci,c2). U protivnom smatrat će se 
da postoji određeni trend (rastući ili padajući) u danom nizu statističkih podataka. 


Medijan-test, prilagođen testiranju hipoteze o postojanju, odnosno neposto- 


Janju, određenog trenda u danom nizu statističkih podataka zove se Mood-Brownov 


medijan-test. 


7. primjer 


Bilježeći maksimalni godišnji riječni vodostaj u razdoblju od n = 10 godina, 
dobiven je ovaj niz statističkih podataka: 


(L) 346. 306 448 402 439 
4. 3. 10. 6. 9. 


390 418 150 28381 437. 
0) 9. T. b že 8. 


Ispod svake vrijednosti vodostaja naveden je odgovarajući redni broj u 
rastućem nizu tih podataka. 

Sinije li se taj niz smatrati stacionarnim nizom u smislu da ne postoji određeni 
trend? Odgovor ćemo potražiti prirujenom Mood-Brownova medijan-testa. 

U danom je primjeru n = 10 (m = 5), dok je vrijednost uzoračkog medijana 
m = 402. Prema (11) to je šesta po veličini vrijednost u danom nizu podataka. 

Odmah se vidi da je vrijednost test-statistike V u ovom primjeru v = 2, jer u 
podnizu (L) ima dva člana manja od m = 402. 

Izračunaju li se, primjenom (59), odgovarajuće vjerojatnosti za slučajnu vari- 


Jablu V, dobiva se 


1 


P V == = P "— 5 Ž —— S 4 

( 0) (V=9) 359 0,00 
29 

=bE = == n 

P(V = 1) = P(V = 4) = 555 = 0,100 

. 100 

2 =a ls ===> Je : 

P(V =2) = P(V =3) = 555 = 0,396 


Odmah se vidi da je P(V < 1) = P(V > 4) = 0,104, tako da kritičnom 
području (—oo, 1] U [4,00) pripada razina značajnosti a = 0,208. Dobivena vrijed- 
nost (v = 2) test-statistike V ne pada ni u to kritično područje, što upućuje na 
prihvaćanje hipoteze o nepostojanju trenda u danom nizu statističkih podataka. 
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Da smo se poslužili aproksimacijom hipergeometrijske razdiobe normalnom 


' 9 25\ . m. m. 
razdiobom N S ROJ što baš nije preporučljivo zbog premalenog n (n = 10), za 
36 
rubove kritičnog područja razine značajnosti a = 0,10 dobili bisino vrijednosti 
a D 5) 
a=o00(5)+u=::(-165)+; =1,1% 
gl ta=5(-165)+5=1125, 
c r9-!(1 5) + deja 4875 
E — — bl= —- =. 
2 2 ! G ) 9 ) , 


pa vidimo da i uz takav račun vrijednost test-statistike ne pada u kritično područje. 


8. Test-serija 


Za testiranje hipoteze Hy o jednakosti dviju razdioba vjerojatnosti, na temelju 
dvaju nizova statističkih podataka z1,...,2m1V1,...,Vn, Može se konstruirati test 
koji se zasniva na intuitivnoj ideji da u uvjetima istinitosti hipoteze Ho iksovi i 
ipsiloni trebaju biti "izmiješani na slučajan način? u združenom nizu, po veličini 
poredanih podataka. Kao pokazatelj izmiješanosti iksova i ipsilona u združenom 
nizu (v. tabl. 7) može poslužiti broj serija u tom nizu. Tako u nizu u tabl. 7. imamo 
najprije seriju od jednog iksa, zatim seriju od tri ipsilona, pa seriju od dva iksa itd. 
Vidimo da ima ukupno 6 serija u tom nizu. 

Najmanji je mogući broj serija 2, koji se s podacima iz 5. primjera postiže u 
ovim situacijama: 


(a) Xx X x x X yoyo yo oy ov 
(b) VO OV X O XoWo KO OK od 


Očigledno je da obje situacije (a) i (b) upućuju na odbacivanje hipoteze Hy, 
jer dani podaci pokazuju tendenciju pomaka razdiobe iksova s obzirom na razdiobu 
ipsilona. 

Uzme li se kao test-statistika broj AR serija (engleski: runs) u združenom nizu 
(z), po veličini poredanih podataka iz niza (x) i niza (y), hipoteza Hy će se odbaciti 
onda kada se dobije premalena vrijednost test-statistike R. 

Da bi se odredilo kritično područje zadane razine značajnosti a, treba pozna- 
vati razdiobu vjerojatnosti diskretne slučajne varijable R. Pokazuje se (v. zad. 24) 
da u uvjetima istinitosti hipoteze Hy vrijedi 


l m—1 n—1 g m—1 n—1 
m+n k: k'=1 k —1 k 
m 


2 m—I n—1 ei 
m+n k— 1 k — 1 M of ; 
m 


' x p=2EsE)1 


i 
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gdje je k € (1,2,...,min(m,n)) i r označava broj serija iksova (ipsilona) u 
združenom nizu (2). Za m,n > 10 približno vrijedi da R > N(upR,op), gdje je 
2mn 


' | — IMXuR—2) 
62 spe 281 Eee e (WR — I)(uR— 2) 
(62) ku m+n PJ | “R m+n—1 


) 


što omogućuje jednostavno određivanje veličine c, za koju vrijedi P(R < ec) =a. 
Očigledno je 
(63) c=op07()+HR, 
tako da će se hipoteza o jednakosti promatranih razdioba vjerojatnosti odbaciti 
kada vrijednost r, test-statistike R, padne u kritično područje (—oo, c]. 

Za malene vrijednosti m in (m,n < 10) izrađene su tablice (v. tabl. XI. u 
Dodatku) koje omogućuju određivanje rubova kritičnog područja. 


Primijeni li se test serija na podatke iz 6. primjera, vidimo da je r = 9 odgo- 
varajuća vrijednost test-statistike R. Budući da jem = 9i n = 11, formule (62) 
daju up = 10,9 i ak = 2,15. Uzme li se razina značajnosti a = 0,05, iz (63) pro- 
izlazi da je c = 7,35, pa vidimo da vrijednost (r" = 9) test-statistike R ne pada u 
kritično područje (—oo; 7,85]. 

Prema tome i test-serija, kao i medijan-test, upućuje na zaključak da podaci 
niza (x) i niza (y) iz 6. primjera potječu od iste razdiobe vjerojatnosti. 


Vidjeli smo da slučajna varijabla R općenito pokazuje broj serija u nizu sas- 
tavljenom od dva simbola z i y, pa se kao takva može iskoristiti i za testiranje 
hipoteze o "slučajnosti? (engleski: randomness). 

Pogledamo li situacije (a) i (b), gdje je vrijednost slučajne varijable R jednaka 
2, odmal zaključujemo da tu nikako ne bismo trebali smatrati da se x i y pojavljuju 
na slučajan način, jer je očigledno da iza x redovito slijedi x, a iza y gotovo uvijek 
slijedi y. Pogleda li se, pak, situacija 


(c) Kojo GR OAO Vl A VV E, 


u kojoj imamo 9 serija, može se posumnjati u slučajnost nizanja iksova 1 ipsilona, jer 
se iz (c) naslućuje postojanje zakonitosti (periodičnosti) da iza svakog iksa dolaze 
dva ipsilona. | 

Prema tome, hipoteza Hy o slučajnosti niza satavljenog od m simbola jedne 
vrste (iksova) i n simbola druge vrste (ipsilona) odbacit će se onda kada se dobije 
premalena ili prevelika vrijednost test-statistike R. U uvjetima istinitosti hipoteze 
Ho diskretnoj slučanoj varijabli R pripada razdioba vjerojatnosti opisana formu- 
lama (61), koja se za velike m i n (m,n > 10) aproksimira normalnom razdiobom 
N(uR,Sk), gdje su up i op izraženi formulama (62). To omogućuje da se odredi 
kritično područje zadane razine značajnosti a za hipotezu Hy. 


8. primjer 
Generatorom pseudoslučajnih brojeva dobiven je niz 
E mom a ma a. E e MOE VE BR jE? 


Možemo li ga smatrati slučajnim nizom? 
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| Zamijenimo svaki neparni broj u tom nizu simbolom x, a svaki parni broj 
simbolom y, pa dobivamo niz 


YoX y X y X X X X X y y X y x x x x y x, 


na kojem možemo registrirati broj serija t = 12. 
Uzme li se razina značajnosti a = 0,10, rubovi cy i cx kritičnog područja 
odredit će se iz uvjeta | | 


(64) PR<a)=PRŽže)=7=0,05. 
Budući da je m = n = 10, prema (62) se dobiva up = 1lida S 2,18, tako da 
približno vrijedi | | 


a ; 
a =op0'(5)+up=TA, 


Co = one! (1 — 5) + uR = 14,6 , 


što znači da je pripadno kritično područje (—oo; 7,4]U[14,6; 00). Vrijednost (r = 12) 
test-statistike R ne pada u kritično područje, pa zaključujemo da generirani niz 
od 20 pseudoslučajnih brojeva zadovoljava test serija 1 u tom smislu ga možemo 
smatrati slučajnirn nizom. 

Za potpuniju provjeru slučajnosti nekog niza pseudoslučajnih brojeva obično se 
Primjenjuje više različitih testova (v. [48]). Vidjeli smo da se testom serija uglavnom 
provjerava postojanje izvjesne periodičnosti, dok se Mood-Brownovim medijan- 
-testom može provjeriti postojanje određenog trenda. Primjenom hikvadrat-testa 
kako je opisano u IX.3,1X.6i IX.7, može se provjeriti hipoteza o uniformnoj raziliaLi 
znamenaka, odnosno hipoteza o homogenosti niza pseudoslučajnih brojeva. Tek 
nakon “prolaza? na tim, eventualno još i na nekim drugim testovima smatrat će 
se da promatrani niz zadovoljava uvjet slučajnosti. | 


9. Robusne metode 


Poea robusnosti (engleski: robust) relativno je noviji pojam u matematičkoj 

statistici (v. [20]), a povezan je 1 s problemima procjene parametara i s testira- 
ia statističkih hipoteza. Tako se govori o robusnim procjeniteljima i o robusnim 
estovima. | 


Poznato je da je uzoračka aritmetička sredina X, kao ML-procjenitelj za para- 
metar pu = E[A] norimalne razdiobe N(p, a"), nepristran, konzistentan i najefikas- 
niji procjenitelj. Međutim, uzoračka aritmetička sredina nije najbolji procjenitelj 
za očekivanje E[X] = 8 u parametarskom modelu, gdje se kao klasa dopuštenih raz- 


dioba uzimaju sve Laplaceove razdiobe s parametrima a i 3. U VI.5. je pokazano 


da je uzorački medijan M ML-procjenitelj za parametar B 1 kao takav je efikasniji 


od X. ls 6: jee | jevi | 
ie Uzme li se, pak, jednoparametarska klasa Cauchyjevih razdioba, kojima 
pripada funkcija gustoće Vjerojatnosti 


XIV.J Robusne metode 375 
ž , l 
(65) Nj == tEeR, 


“N+ GTo' 


kao klasa dopuštenih razdioba, i X kao procjenitelj za nepoznati parametar t € 
€ R, odmah se vidi da je uzoračka aritinetička sredina AX vrlo loš procjenitelj za 
t. Poznata je, naime, činjenica da Cauchyjeva razdioba nema ni konačno očekiva- 
nje ni konačnu varijancu pa se ne može govoriti ni o nepristranosti ni o efikasnosti 
uzoračke aritmetičke sredine kao procjenitelja za nepoznati parametar t Cauchyjeve 
razdiobe (65). 

Parametar t Cauchyjeve razdiobe, kao i parametri 3 za Laplaceovu 1 ut za 
normalnu razdiobu, parametri su lokacije i sva tri imaju značenje medijana odgo- 
varajuće razdiobe, pa se intuitivno teško prihvaća činjenica da je u prvom slučaju 
uzoračka aritmetička sredina najbolji procjenitelj za medijan normalne razdiobe, 
u drugom slučaju može poslužiti kao procjenitelj za medijan Laplaceove razdiobe, 
ali ima i boljih, dok u trećem slučaju gotovo da i nema smisla uzimati X kao 
procjenitelj za rmedijan Cauchyjeve razdiobe. 

To se zbiva zbog toga što se u normalnoj razdiobi, među članovima niza 
Z1,...,Zn uzoračkih vrijednosti, ne pojavljuju stršeće vrijednosti (engleski: out- 
lters), jer je poznato da je praktički nevjerojatno da se izvan intrevala (u—34, u-++30) 
izmjeri vrijednost slučajne varijable X — N(pu,ao?). Kaže se da normalna razdioba 
ima kratke repove, za razliku od Laplaceove, a pogotovo Cauchyjeve razdiobe, koje 
imaju duge repove. 

Pojava stršećih vrijednosti u nizu statističkih podataka zi, ..., Zn bitno utječe 
na vrijednost Z aritmetičke sredine. Statistika X, u modelima gdje klasu dopuštenih 
razdioba čine vjerojatnosne razdiobe dugog repa, ima vrlo veliku varijancu (može 
biti 1 00), što znači da će kao procjenitelj imati slabu efikasnost. Stoga se prirodno 
nameće zadatak da se pronađe procjenitelj koji možda neće biti najbolji (najefikas- 
niji procjenitelj) ni za jednu razdiobu vjerojatnosti iz vrlo široke klase (recimo sve 
dvoparametarske kontinuirane simetrične razdiobe), ali će biti vrlo dobar za sve 
razdiobe te klase. Takav procjenitelj, ako postoji, zove se robusni procjenitelj. 


9. primjer 


Neka je fo f.g.v. za normalnu razdiobu N(py,o“) i fe f.g.v. za N(pto, co?) 
(c > 1). Neka jenadalje0<p<ligq=1—p, pase tada razdioba vjerojatnosti 


sa f.g.v. f, gdje je 
(66) Iz)=pfolz)+qfdl2), zER, 


zove pomućena (engleski: contaminated) normalna razdioba. 

Ako niz podataka zi,...,Zn potječe od pormućene normalne razdiobe, onda 
možemo smatrati da pri svakom mjerenju postoji mogućnost da se dobije vrijednost 
slučajne varijable Xo — N(puo, g") s vjerojatnošću p, ili vrijednost slučajne varijable 
Xe = N(pog,co?) s vjerojatnošću q. To znači da se u danom nizu podataka može 
očekivati njih 100p % iz N(pto, o“) i njih 100q % iz N(pto, ca"). 

Akoje p blizu 1, odnosno q blizu 0, onda se pomućena normalna razdioba ? malo 
razlikuje" od normalne razdiobe N(pug,o“),što ćesena podacimazi,..., Zn odraziti 
tako da će se među njima eventualno pojavljivati stršeće vrijednosti. Glavnina po- 
dataka podvrgava se N(pto, a7), dok se stršeće vrijednosti podvrgavaju N(puo, ca?). 
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Fra 


Slika 44. Skica pomućene normalne razdiobe i odgovarajućih nor- 
malnih razdioba za ug =0g=1,c=9ip=0,9 


anT 


stege la s GO 44 8 


Označimo li sa X slučajnu varijablu kojoj pripada f.g.v. (66), tada je 
(67) E[X]=Ww, VX] =o(p+cq). 


Promotri li se pripadna uzoračka aritmetička sredina X, odmah se vidi da je 


2 


(68) EI =, VRI=A(p+eq), 


iz čega se razabire da je_X nepristrani procjenitelj za nepoznati parametar u, čija 
efikasnost (varijanca V[X]) bitno ovisio c. Kadajep=09q=01ic=9 


(v. sl. 44), ispada VLX] = 1,8 —, pa se vidi da je ta efikasnost tek oko 55 % 


od efikasnosti aritmetičke sredine kao procjenitelja u klasi nepomućenih normalnih 
razdioba (c = 1). 


Uzme li se uzorački medijan M kao procjenitelj za parametar u u klasi 


pomućnih normalnih razdioba, onda se njegova efikasnost može približno izraziti 
(v. (12)) formulom 


— l l TO“ l 


69 NEE okej 


pa se vidi da njegova efikasnost mnogo blaže ovisi o c, nego efikasnost procjenitelja 
XA. Dapače, za c > oo, ona ne teži beskonačnosti kao u (68), već teži prema 


2 
Ta : 
Dia S druge strane, za c = |, tj. kada je riječ o nepomućenoj normalnoj razdiobi, 
: , — zo? 
efikasnost uzoračkog medijana M, kao procjenitelja za parametar ug, jest Ne 1Z 
n 


čega se vidi da ona iznosi oko 64 % od efikasnosti aritmetičke sredine X. 

Mogli bismo reći da je uzorački inedijan prilično robustan procjenitelj za 
parametar lokacije (medijan, očekivanje) u vrlo širokoj klasi kontinuiranih simet- 
ričnih razdioba vjerojatnosti. U klasi normalnih razdioba njegova je efikasnost oko 
64 7% od efikasnosti uzoračke aritmetičke sredine, koja je u tom slučaju najefikasniji 
procjenitelj. 


| 


XIV.9 Robugne metode ŠI 


Još bolji, u smislu robusnosti, pokazao se procjenitelj definiran pomoću 
uzoračkih kvartila X9.25 1 Xo 75 (v. XIV.2), tako da se stavi 


(70) Mi = 


ro| = 


Iz (70) je vidljivo da vrijednost m, statistike M; neće biti osjetljiva na stršeće 
vrijednosti, dok s druge strane procjenitelj M, zadržava vrlo visoku efikasnost i onda 
kada podaci potječu od normalne razdiobe (više od 80 % efikasnosti aritmetičke 
sredine). 

Postoje određene metode (v. [20]) kojima se mogu određivati robusni procje- 
nitelji na temelju određenoga općeg načela, poput metode najveće vjerojatnosti. U 
tom svjetlu robusni se procjenitelji mogu tretirati kao određena generalizacija ML- 
-procjenitelja. Detaljnije obrazloženje postupka određivanja robusnih procjenitelja 
prelazi okvire ove knjige. | 

Primijetimo, ipak, da se postupkom potkresivanja (engleski: trim, truncate), tj. 
odbacivanjetm određenog postotka (3 %ili 6 % i sl.) najvećih i najmanjih vrijednosti 
u danom nizu podataka i zatim izračunavanjem aritmetičke sredine i varijance na 
potkresanom uzorku, dobivaju robusne procjene za očekivanje (medijan) i varijancu 
kao nepoznate parametre. Ti su procjenitelji efikasni u modelu s vrlo opsežnom 
klasom dopuštenih razdioba, a i u samoj klasi normalnih razdioba zadržavaju vrlo 
visoku efikasnost. | 
Da bi se bar donekle razjasnila ideja robusnog testa razmotrit će se idući prim- 
jer. 


10. primjer 


U XIV.4. opisan je problem testiranja nul-hipoteze da spareni podaci (uređeni 
parovi) (u;,v;)(i=1,...,n) potječu od nezavisnih kontinuiranih slučajnih varijabli 
U; i V;, kojima pripada ista razdioba vjerojatnosti, prema alternativnoj hipotezi 
da ne potječu od iste razdiobe vjerojatnosti. Ondje je problem rješavan primjenom 
testa predznaka, dok je u XIV.5. pokazano da se isti problem može rješavati i 
poinoću Wilcoxonova testa. 

Budući da je u oba slučaja nul-hipoteza formulirana kao Hg: M = 0, gdje 
M označuje medijan razdiobe iz koje polječu podaci z; = ui —u(t=1,...,n), 
nameće se ideja da se na isti problem primijeni test-statistika 


(71) T+— vn, 


gdje je X uzoračka aritmetička sredina, a 5% uzoračka korigirana varijanca za po- 
datke z1,...,Zfn. Statistika (71) je, zapravo, posebni slučaj statistike T' iz 6. prim- 
jera u VIII.G. (formula (70) uz o = 0), kojoj uz pretpostavku da podaci potječu 
od normalne razdiobe N(0,0*) pripada Studentova razdioba sa n — 1 stupnjeva 
slobode. Ako pretpostavka o normalnasti razdiobe nije ispunjena, onda se ne može 
jednostavno odrediti kritično područje zadane razine značajnosti za test s test- 
-statistikom (71). Nasuprot tome, test predznaka i Wilcoxonov test primjenljivi 
su na mnogo širu klasu razdioba vjerojatnosti, pa se prirodno nameće pitanje_o 


P 
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njihovoj "efikasnosti" na klasi normalnih razdioba. No, nezgoda je što ovdje nije 
definiran pojam efikasnosti testa. U IX.4. uveden je, međutim, pojam razlučivosti, 
koji se može upotrijebiti u navedenu svrhu. 

Uzme li se realni broj 6, može se postaviti zadatak da se odredi najmanja 
veličina no(6) slučajnog uzorka, kojim se može, uz zadanu razinu značajnosti a, 
primjenom test-statistike T' iz (71), razlučiti normalna razdioba N(6,o*) od nor- 
malne razdiobe N(0, o“). Isto se tako može postaviti zadatak da se odredi najmanja 
veličina ny(6) slučajnog uzorka kojim se može, uz istu razinu značajnosti a, prim- 
jenom testa predznaka, razlučiti N(6,g*) od N(0,o?). Analogno značenje imat će 
veličina n2(6) za Wilcoxonov test. sm 

Može se pokazati da vrijedi (v. [4]) 


No(8) 2 
2) < lim “2 =] 0,64 
naej ni(6) T PT 
: no(6) 3 
Te f 2 <a 5 
a S a 


što se može interpretirati tako da se kaže da test predznaka ima 64 % efikasnosti 
Studentova testa, a Wilcoxonov test da ima 95 % efikasnosti s obzirom na Studen- 
tov test, pri testiranju hipoteze o nultom medijanu u modelu s klasom normalnih 
razdioba N(6,g?) kao klasom dopuštenih razdioba vjerojatnosti. 


Pojednostavnjeno govoreći, mogli bismo reći da test predznaka zahtijeva — = 


€ 


a 1,57 puta veći uzorak od Studentova testa, dok Wilcoxonov test zahtijeva samo 
3 2 1,05 puta veći uzorak od Studentova testa, za isti stupanj razlučivosti na klasi 


normalnih razdioba. To pokazuje da nije preporučljivo koristiti se testom predznaka 
u situaciji kada se može smatrati da podaci potječu od normalne razdiobe, jer mu 
je razlučivost mnogo slabija od razlučivosti Studentova testa. Ostaje, međutim, 
prednost testa predznaka da nije osjetljiv na odstupanje od normalne razdiobe i da 
je vrlo jednostavan za primjenu, što nije slučaj sa Studentovim testom. 

Wilcoxonov, pak, test ima razlučivost gotovo jednaku razlučivosti Studentova 
testa na podacima iz normalne razdiobe, a posjeduje i svojstvo neosjetljivosti na 
odstupanje od normalne razdiobe, tako da je primjenljiv na mnogo širu klasu raz- 
dioba vjerojatnosti i u tom sinislu se smatra robusnim testom. 


Zadaci 


1. Izvedite formulu (6) 1 (7). 


Uputa: Primijenite približnu formulu za E[S] iz VI.6. i činjenicu da su Xi 


X) nezavisne slučajne varijable. 


2. Nađite ML-procjenitelj za kvantil p-tog reda, odredite njegovo očekivanje i 
očekivanu kvadratnu grešku, uz pretpostavku da podaci potječu iz uniformne 


razdiobe U(0,a) (a > 0). | 


3. Odgovorite na pitanje iz zad. 2, uz pretpostavku da podaci potječu iz ekspo- 
nencijalne razdiobe Fx(a) (a > 0). 


XIV. 


4. 


10. 


11. 


12. 
13. 
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Usporedite očekivanu kvadratnu grešku za procjenitelja iz parametarskog 
modela (formula (3)) i procjenitelja za medijan iz neparametarskog modela 
(formula (9)), uz pretpostavku da je n (veličina uzorka) veliko i da podaci 
potječu iz: 
a) normalne razdiobe, 

b) uniformne razdiobe, 

c) eksponencijalne razdiobe. 


. U kakvorn su odnosu očekivana kvadratna greška pri procjeni kvantila p-tog 


reda eksponencijalne razdiobe Ex(a) za p=0,011ip =0,99. 


. Odredite interval povjerenja zadane pouzdanosti y za kvantil £,, uz primjenu 


asimptotske normalnosti procjenitelja Ap, u parametarskom modelu s klasom 
dopuštenih razdioba: 

a) P=(1U(0,a) :a > 0), 

b) P=(N(u,0"):n€R,gs>0), 

c) P= (Ex(a) :a > 0). 


Uputa: Primijenite postupke i formule iz VII.3. 1 VII.4. 


. Odredite granice intervala povjerenja pouzdanosti y = 0,95 za kvantil €, u 


neparametarskoim modelu, ako je n = 100 1: 
a) p=0,05, b) p=0,10, c) p=0,25, 
d) p=0,79, e) p= 0,90, f) p=0,95. 


. Na slučajnom uzorku veličine n = 10 izračunajte: 


a) P(Y3 < 10,5 < Ya), 

b) P(M < 20,25 < Y5), 

€) Ps € us € 0), 

gdje je i(t = 1,3,5,8, 10) 1-ta uređajna statistika, a 2, (p = 0,5 ; 0,25 ; 075) 
kvantil p-tog reda. 


. Odredite najmanju moguću veličinu (n) uzorka za koju vrijedi P(Y] < M < 


< Y,), gdjeje Yi minimalna, a Y,, maksimalna vrijednost u slučajnom uzorku. 
Zan = 20 odredite kritično područje razine značajnosti a = 0,05 pri testi- 
ranju hipoteze Hg: M = 0, prema alternativnoj hipotezi Hy: M € 0, uz 
primjenu: 

a) relacija (31) 1 (32), 

b) relacija (23) 1 (24), 

pri čemu razmotrite pretpostavke da je vrijednost f, empirijske frekvencije 5, 
101 15. 

Nađite kritično područje pri testiranju nul-hipoteze Ho: 20,25 = Zo, prema 
alternativnoj hipotezi Hy: 29,25 < Zo, uz n = 40, a = 0,10 i primjenu test- 
Izvedite formule (33) i (34). 

Dokažite da Wilcoxonovoj statistici W (formula (38)) pripada ista razdioba 
vjerojatnosti kao i slučajnoj varijabli V, definiranoj u XIV .5. (formula (39)). 


380 Neparametarske metode XIV. 
Uputa: Uočite da je svaki član ZR; (t=1,...,n) u (38) jednak jednom i 
samo jednom od članova V,,..., V, 1 pozovite se na činjenice 1-3. u XIV.5. 

14. Dopunite tabl. 4. zan =5in=6. 
15. Izvedite formule (41) i (42). 


16. 


17. 


18. 


19. 


20. 


21: 


22. 


23. 


24. 


n 
Uputa: Iskoristite činjenicu da je X. i“ = s(n + 1)(2n + 1). 
isl 


Neka Wi označuje zbroj rangova negativnih podataka, W2 zbroj rangova po- 
zitivnih podataka 1 W Wilcoxonovu statistiku. Dokažite da vrijedi: 
n(n+1) 


V 
a) [I 5 


W2 — W,, c) W = 2W. — 


1 
nm no AM, 
Neka je W test-statistika iz XIV.6.i m =2in =5. Odredite skup A5 1 
P(W == k), k € Mo 


Uputa: Uočite da je vjerojatnost događaja (W = k) jednaka vjerojatnosti 
da, nasumce izvlačeći m brojeva iz skupa £1,2,...,m + n), dobijete broj k 
kao vrijednost. njihova zbroja. 

Neka je W test-statistika iz XIV.6. im = n = 10. Primjenom formula 
(49) i (50) odredite cy i c2 tako da vrijedi P(W < (= P(W žonE 
= 0,05. Usporedite dobiveni rezultat s odgovarajućim vrijednostima u tabl. 


X. u Dodatku. 


Dokažite formulu (54). 

Uputa: Uočite da P(V = v) označuje također i vjerojatnost da nasumce 
izvlačeći k kuglica iz vrećice, koja sadrži m plavih i n bijelih kuglica, dobijemo 
ineđu njima v plavih kuglica. * 


Izvedite formule za cy 1 cs iz (55), uz pretpostavku da V > N(u, 07), gdje su: 


a) gi o? određeni formulama (56), 
b) ui o“ određeni formulama (60). 


. ' ' —1. ' 
Izvedite formule za E[V] i DIV] iz (56) za k = sni. i pokažite da se 
za velike m i n može uzeti da približno vrijedi E[V] = _ DIV] = m 

2 4(m+n) 


Izračunajte P(V = 2) i P(V = 7), prema formuli (54), za slučaj m = 91 
n=11,te primijenite dobiveni rezultat na problem iz 6. primjera. 

Izvedite formulu (59). 

Uputa: Vidite uputu uz 19. zadatak. 

Izvedite forinulu (61). 

Uputa: Primijenite klasičnu definiciju vjerojatnosti u situaciji kada se skup 
svih mogućih ishoda sastoji od svih mogućih izbora m pozicija za iksove od 
ukupno raspoloživih 2n + n pozicija. 
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TABLICA I. 
Vjerojatnosti P(X < r) 
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TABLICA II. TABLICA II. (nastavak) 


Vjerojatnosti P(X' < r) = >) ps (r=0,1,2,...) u Poissonovoj razdiobi Po(A) 


m 


0 0,0000 

1 0,0001 
2 0,0005 0,0000 
0,6730 3 0,0023 M ude 
0,9825 0,9384 4 0,0076 0,0005 
0,9989 0,9921 5 0,0203 pa bada 
0,9999 0,9992 6 0,0458 s dona 
1,0000 0,9999 7 0,0895 a baja 
1,0000 8 0,1550 D219 
0,2424 0;0621 
0,3472 0;1094 
0,4616 0,1757 
0,5760 0,2600 
0,6815 0,3585 
0,7720 0,4664 
0,2231 0,8444 0,5704 
0,5578 a 0,1991 0,8987 0,6694 
0,8088 0,4232 0,9370 0,7559 
0,9344 0,6472 0,9626 0,8272 
0,9814 0,8153 0,9787 0,8826 
0,9955 0,9161 0,9884 0,9235 
0,9991 0,9665 0,9939 0,9521 
0,9998 0,9881 | 0,9733 0,9970 0,9712 
1,0000 G 0,9989 | 0,9962 | 0,9901 0,9985 0,9833 
0,9997 | 0,9989 | 0,9967 0,99983 0,9907 
0,9999 | 0,9997 | 0,9990 0,9997 0,9950 
1,0000 | 0,9999 | 0,9997 0,9999 0,9974 
1,0000 | 0,9999 0,9999 0,9987 
1,0000 0,9993 1,0000 0,9994 
0,9998 0,9997 
0,9999 0,9999 
1,0000 0,9999 


1,0000 


0,0025 
0,0266 | 0,0174 
0,0884 | 0,0620 
0,2017 | 0,1512 0,0591 
0,3575 | 0,2851 | 0,23387 0,1321 
0,5289 | 0,4457 | 0,3690 0,2414 
0,6860 | 0,6063 | 0,5265 0,3782 
0,8095 | 0,7440 | 0,6728 0,5246 
0,8944_ | 0,8472 | 0,7916 0,6620 
0,9462 | 0,9161 | 08774 0,7764 
0,9747 | 0,9574 | 0,9332 C 0,8622 
0,9890 | 0,9799 | 0,9661 0,9208 
0,9955 | 0,9912 | 0,9840 0,9573 
0,9983 | 0,9964 | 0,9929 0,9784 0,8981 
0,9994 | 0,9986 | 0,9970 0,9897 585 | 0,9400 
0,9998 | 0,9995 | 0,9988 | 0,9976 | 0,9954 0,9665 
1,0000 | 0,9996 | 0,9996 | 0,9990 | 0,9980 | 0,99683 < 0,9823 
1,0000 | 0,9999 | 0,9998 | 0,9996 | 0,9992 | 0,9984 | 0,9911 
1,0000 | 0,9999 | 0,9999 | 0,9997 | 0,98994 C 0,9957 
1,0000 | 1,0000 | 0,99989 | 0,9997 0,9980 
1,0000 | 0,9999 | 0,9998 0,9991 
1,0000 | 0,9999 0,9996 
1,0000 0,9999 
0,9999 
1,0000 


TABLICA III. 


Vjerojatnosti P(Z < z) = P(z) u standardnoj normalnoj razdiobi N(0,1) | 


0,5080 0,5160  0,5199  0,5239 
0,5478 0,5557  0,5596  0,5636 
0,58710, 0,5948  0,5987  0,6026 
0,6255 0,63831  0,6368  0,6406 
0,6628 0,6700  0,6736  0,6772 


0,03 0,04 


0,0003  0,0003  0,0003 0.0003 0,0003 
i 0, , 0,0003 
Kada Mne Mk o 0,0004  0,0004_ 0,0004  0,0004  0,0004 0.0003 
' ' : ,0006  0,0006  0,0006  0,0006  0,0005 0.0005. 0 
0,0010  0,0009_ 0,0009_ 0,000900 0, i nese a 
' ,0008  0,0008  0,0008  0,0008 0,0007_ 0 
0,0013  0,0013  0,0013._ 0,0012  0,0012 0,0011  0,0011. 0,0011._ 0,0010 50010 


0,6985 0,7054  0,7088  0,7123 
0,7324 0,7389  0,7422  0,7454 
0,7642 0,7704  0,7734  0,7764 
0,7939 0,7995  0,8023  0,8051 
0,8212 0,8264  0,8289  0,8315 


0,8461 0,8508  0,8531  0,8554 
0,8686 0,8729 0,87499  0,8770 
0,8888 0,8925  0,8944  0,8962 
0,9066 0,9099  0,9115  0,9131 
0,9222 0,9251  0,9265  0,9278 


Pama VB Ša No aba ostanak dadaas 


0,019 0,0018 0,0017 0,0017 0,0016  0,0016 0,015  0,0015 0,0014 0.0014 
0,0023  D,0022 0.0021 0.0021 
0,0035  0,0034 0,00338 00032 0 D. ' ' MM koa 
i i: i ' 0031 D,0030  0,0029  0.0028 
0,0047  0,0045  0,0044._ 0.0043._ 0 0. i POLA 00 
,0045 0, 0043. 0,0041. 0,0040. 0,00389. 0,0038 00037 00 
os I , * , ) ) 0 
0,0062_ 0,0060  0,0059  0,0057 0.0055 D,0054  0,0052  0,0051 0,00490 na 


o) : 
0,082 0,0080 o,gora 0,0075 0,0073  0,0071  0,0069  0,0068  0,0066 0.0064 
i. ' ,0099  0,0096  0,0094  0,0091 0.0089 i 
0,0139 0,0136  0,0132._ 0.0129 D. 011 akt 
i i i 0,0125  0,0122. 0,01119. 0,0116._ 00113 00 
0179. 00174. 0,0170. 0,0166.  0,0162. 0,0158 0.0154. 0.0150 0,0146 Ni 


oak pio 


hh o mno m 


0,9357 0,9382  0,9394_— 0,9406 


0,0228 0,022200 : 
Dig Non 0217 0,0212  0,0207 0,0202._ 0,0197  0,0192._ 0,0188_ 0,0183 i 
ei , 0,028 
ddedoodigi go a KE 0,0268  0,0262  0,0256.  0,0250  0,0244  0,0239  0,0233 ; Nai: stoi a6 oo 
LO] 00246! go lu4a5 001 0,0336  0,0329  0,0322  0,0314  0,0307 0,03801  0,0294 1. da o S o 
ile Vi osda: g g2 0,0418  0,0409  0,0401_ 0,0392  0,0384 0,0375  0,0367 ' podari E ee 
-1.5 | 0.0668 a = 0,0516  0,0505  0,0495  0,0485  0,0475 0.0465 0.0455 3 Para i A 
' ' ,0643  0,0630 0,06180 ' i 
0,0606  0,0594  0,0582  0,0571  0,0559 0,9783 0,9793  0,9798  0,9803 


0,9830 0,9838  0,9842  0,9846 
0,9868 0,9875  0,9878  0,9881 
0,9898 0,9904  0,9906  0,9909 
0,9922 0,9927  0,9929  0,9931 


0,9941 0,9945  0,9946  0,9948 
0,9956 0,9959  0,9960  0,9961 
0,9967 0,9969  0,9970  0,9971 
0,9976 0,9977  0,9978  0,9979 
0,9982 0,9984  0,9984  0,9985 


0,0 E ' 

Kaos eo 0,07788. 0,0764  0,0749  (,0735  0,0722  0,0708 0,0694  0,0681 

o Moe 9,0934  0,0918  0,0901  0,0885  0,0869  0,0853 0,0838  0,0823 

d:1857 (01338 nb Ae 0,1075  0,1056  0,1038  0,1020._ 0,1003  0,0985 
. 0,1271_0,1251_ 0,1230__ 0,1210 

0 u , ,12 0,1190._ 0,117 
:1587  0,1562  0,1539_ 0,1515  0,1492 0,1469  0,1446._0,1423 0,14010 Br 


, 
m LL 


Ona 


a : 

0,1841 0,1814 0,1788 0.1702 0.1730 0,1711. 0,1685. 0,1660._ 0,1635 01611 
i ,2005  0,1977. 0,1949._ 01922 

0,2420. 0,2389 0.2358 02327 i pr pr sa aa bau 
i ,2 0,2296  0,2266  0,2236 02206 

: ' 22: 29 0,2177.  0,2148 

02743 0,2709 0,2676  0,2643  0,2611  0,2578  0,2546  0,2514. 02483 0 1 
3050 0,3015  0,2981  0,2946 0,29012  0,2877 0,2843 0.2810. O2TT6 


0,9987 0,9988  0,9989  0,9989 
0,9991 0,9992  0,9992  0,9992 
0,9994 0,9994  0,9994  0,9994 
0,9995 0,9996  0,9996  0,9996 
0,9997 0,9997  0,9997  0,9997 


9 
0 
l 
2 
3 
4 
5 
6 
7 
8 
9 
0 
1 
2 
3 
4 
5 
6 
7 
8 
9 
0 
1 


Q o DSI S A A S) Do 


ž | 

ki nea 7 0,3336  0,3300  0,3264  0,3228  0,3192  0,3156  0,3121 

Po S: 45. 0,38707  0,3669  0,3632  0,3594  0,3557 03520 03483 

Make tei avi o 0;,4013  0,3974._ 0,3936  0,3897  0,3859 
h : ' ,448: 14443 0,4404_ 0,4364_ 0,4325 

a 4: 0,4286  0,4247 
15000  0,4960  0,4920  0,4880  0,4840 04801 0,4761_ 0,4721_ 0,4681  0,4641 


TABLICA IV. TABLICA V. 


Vrijednosti G7'(p). (Gn - Lr.v. za 
Studentovu razdiobu sa n stupnjeva slobode.) 


Vrijednosti gama-funkcije T(A),A>0 | 
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Za izračunavanje vrijednosti izvan intervala (1, 2] primijenite formulu 


MA) =(A=DIA =1). 
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-test. (Formula (10) u X. 2 
a = 0,02 | a = 0,01 


a= 0,05 


ičine co u KS 
a = 0,10 


TABLICA VIII. 
Vrijednosti veli 
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TABLICA IX. = TABLICA X 
iza o m ' Najveći cijeli broj ci najmanji cijeli broj c» za 
(W - Wilcoxonova statistika ai kasa as JEL or a: 
XIV.5.) (W > test statistika MWW-testa, XIV.6.) 


o] 
= 
O 0 -1m a 


S = = 
O 9 m u OO 0 Mu OO 0-19 uo 


84 


0,455 | 0,706 


93 
96 | 45 99 
1021471 105 


112 | 56 115 
119 | 58 122 


[o 0] 
Q0 
I 
O 
ae) 
se) 
u 
O 
QO 
se) 
đa 
O 
> 
Ke) 
o 
O 


= 
m 
e 
- 
o 
o 
ei 
o 
To] 
O 
o 
o 
fo) 
o 
A 
o 


i Om m 
I 00 m 
mmww 
O ooo 
O rm 
O = 0 
9 No um 
Oooo 
(mu m 
srao 
M M0 
Oooo 
oO MmMmn>m 
O vo o, 
== o 
O Ooo 
non 
ima = 
ooo 
Oooo 


0,100 | 0,300 | 0,700 | 0,900 


0,007 | 0,045 [ 0,171 


PRAIA O 
msvruwo tm 00 m 
caac ee eNa 


o 


Vjerojatnosti P(R < r) za test-statistiku R. (Test serija, XIV. 8.) 


TABLICA XI. 


Vrijednosti veličina ci i di u DW-testu 
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